segmentierung mit graph-cut-methoden

Segmentierung mit Graph-Cut-Methoden

Diplomarbeit im Fach Informatik

vorgelegtvon

Erik Rodner

Geboren am 22.05.1983 in Konigs Wusterhausen

Angefertigt am

Lehrstuhl fur Digitale Bildverarbeitung

Fakultat fur Mathematik und Informatik

Friedrich-Schiller-Universitat Jena.

Betreuer: Prof. Dr.Ing. J. Denzler, Dr. rer. nat. habil. H. Suße, Dipl.Inf. O. Kahler

Beginn der Arbeit: 4. Februar 2007

Abgabe der Arbeit: 6. Juli 2007

iii

Ich versichere, dass ich die Arbeit ohne fremde Hilfe und ohne Benutzung anderer als der

angegebenen Quellen angefertigt habe und dass die Arbeit in gleicher oderahnlicher Form noch

keiner anderen Prufungsbehorde vorgelegen hat und von dieser als Teil einer Prufungsleistung

angenommen wurde. Alle Ausfuhrungen, die wortlich oder sinngemaß ubernommen wurden,

sind als solche gekennzeichnet.

Die Richtlinien des Lehrstuhls fur Studien- und Diplomarbeiten habe ich gelesen und aner-

kannt, insbesondere die Regelung des Nutzungsrechts.

Jena, den 5. Juli 2007

iv

Ubersicht

Die vorliegende Arbeit beschreibt die Verwendung von sogenannten Graph-Cut-Methoden

in der Bildverarbeitung. Diese Methoden losen Segmentierungsprobleme mit Verfahren der dis-

kreten Optimierung. Notwendige theoretische Grundlagen aus der Bayesschen Bildanalyse, Gra-

phentheorie, diskreten Optimierung und theoretischen Informatik werden dargestellt und in ei-

nem gemeinsamen Kontext erlautert. Einen Schwerpunkt bildet dabei eine klare Eingrenzung

der Moglichkeiten von Graph-Cut-Verfahren. Ausgehend von diesen Untersuchungen werden

im weiteren Verlauf der Arbeit zwei Problemstellungen der Bildverarbeitung bearbeitet. Die Lo-

kalisierung des Kennzeichenrandes ist ein wichtiger Schritt im Gesamtsystem eines Kennzei-

chenlesers und kann effizient durch einen Graph-Cut-Ansatz gelost werden. Weiterhin werden

Verfahren zur Verbesserung der Ebenendetektion entwickelt, welche es unter anderem ermogli-

chen, Tiefeninformationen und Grauwertinformationen aktueller Spezialkameras in einem Opti-

mierungsschritt zu kombinieren. Die Auswertung der vorgestellten Verfahren erfolgt anhand von

Experimenten und dem Vergleich mit Ground-Truth Daten.

Abstract

The following work describes the potential of graph cut methods in computer vision. These me-

thods solve segmentation problems with discrete optimization techniques. Theoretic fundamen-

tals from bayesian image analysis, graph theory, discrete optimization and theoretical computer

science are presented and explained in a common framework. Thereby the main focus is the study

of well defined limitations of graph cut methods. Based on these results it is possible to develop

new solutions for two applications. The localization of a license plate border is an important step

in a license plate recognition system and can be solved efficiently with a graph cut approach.

Furthermore different methods to refine planar patch detection are developed, which are able to

combine depth and intensity information from 3-D imaging sensors in a single optimization step.

Evaluation of all proposed algorithms is done by experiments and comparision with ground truth

data.

Inhaltsverzeichnis

1 Einfuhrung 1

1.1 Literaturuberblick . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2

1.2 Verwendete Notationen. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4

1.3 Aufbau der Arbeit. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4

2 Markov Random Fields 7

2.1 Definition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7

2.2 Satz von Hammersley-Clifford. . . . . . . . . . . . . . . . . . . . . . . . . . . 9

2.3 Schatzung mittels MRF. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .10

2.3.1 MAP-Schatzung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .10

2.3.2 Annahmen der Schatzung . . . . . . . . . . . . . . . . . . . . . . . . . 11

2.3.3 Vereinfachungen der Schatzung . . . . . . . . . . . . . . . . . . . . . . 11

2.3.4 Beispiele . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .12

3 Schatzung von MRF-Zustanden mit minimalen Schnitten 17

3.1 Minimale Schnitte in Graphen. . . . . . . . . . . . . . . . . . . . . . . . . . . 18

3.1.1 Problemdefinition. . . . . . . . . . . . . . . . . . . . . . . . . . . . . .18

3.1.2 Zusammenhang zur Bestimmung des maximalen Flusses. . . . . . . . . 19

3.2 Algorithmen zur Bestimmung des minimalen Schnittes. . . . . . . . . . . . . . 23

3.2.1 Der Algorithmus von Dinic . . . . . . . . . . . . . . . . . . . . . . . . 24

3.2.2 Der Algorithmus von Kolmogorov und Boykov. . . . . . . . . . . . . . 24

3.3 Diskrete Optimierung mit Graph-Cut. . . . . . . . . . . . . . . . . . . . . . . . 25

3.3.1 Das Optimierungsproblem und die Funktionsklassen F2 und F3. . . . . 25

3.3.2 Regularitat und Graphkonstruktion fur F2 . . . . . . . . . . . . . . . . . 26

3.3.3 Vollstandige Charakterisierung. . . . . . . . . . . . . . . . . . . . . . . 31

3.3.4 Der Zusammenhang zu submodularen Funktionen. . . . . . . . . . . . 33

v

vi INHALTSVERZEICHNIS

3.4 alpha-Expansion-Algorithmus. . . . . . . . . . . . . . . . . . . . . . . . . . . 36

3.4.1 Beschreibung des Algorithmus. . . . . . . . . . . . . . . . . . . . . . . 37

3.4.2 Eigenschaften des Algorithmus. . . . . . . . . . . . . . . . . . . . . . 39

3.4.3 Anforderungen an Zielfunktionen der Funktionsklasse F2. . . . . . . . 41

3.4.4 Beziehung zur Schatzung von MRF-Zustanden . . . . . . . . . . . . . . 42

4 Anwendungen 45

4.1 Interaktive Segmentierung. . . . . . . . . . . . . . . . . . . . . . . . . . . . .45

4.1.1 Aufgabenstellung. . . . . . . . . . . . . . . . . . . . . . . . . . . . . .45

4.1.2 Festlegung der unabhangigen Kosten einzelner Pixel. . . . . . . . . . . 46

4.1.3 Wahl der Cliquen-Potentiale 2. Ordnung. . . . . . . . . . . . . . . . . . 46

4.2 Kennzeichenlokalisierung. . . . . . . . . . . . . . . . . . . . . . . . . . . . . .48

4.2.1 Einfuhrung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .48

4.2.2 Kennzeichenlokalisierung als binares Segmentierungsproblem. . . . . . 48

4.3 Ebenendetektion. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .50

4.3.1 Problemstellung. . . . . . . . . . . . . . . . . . . . . . . . . . . . . .51

4.3.2 Ebenendetektion durch Bewegungssegmentierung. . . . . . . . . . . . . 51

4.3.3 Ebenendetektion mit zusatzlicher Tiefeninformation . . . . . . . . . . . 55

5 Experimente 59

5.1 Kennzeichenlokalisierung. . . . . . . . . . . . . . . . . . . . . . . . . . . . . .59

5.1.1 Experiment. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .59

5.1.2 Auswertung. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .61

5.2 Ebenendetektion. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .62

5.2.1 Experimentaufbau. . . . . . . . . . . . . . . . . . . . . . . . . . . . .62

5.2.2 Auswertung. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .65

6 Ausblick 67

6.1 Allgemeine Ansatze fur die weitere Forschung. . . . . . . . . . . . . . . . . . . 67

6.2 Verbesserung der Kennzeichenerkennung durch Graph-Cut-Verfahren. . . . . . 68

6.3 Erweiterung der Ebenendetektion mit Graph-Cut. . . . . . . . . . . . . . . . . 68

7 Zusammenfassung 69

A Mathematische Details 71

A.1 Zusammenhang zwischen binarer Bildrestaurierung und Medianfilter. . . . . . . 71

INHALTSVERZEICHNIS vii

A.2 Details zum Algorithmus von [BK04] . . . . . . . . . . . . . . . . . . . . . . . 72

A.3 Minimierung von F2-Funktionen ist NP-schwer. . . . . . . . . . . . . . . . . . 74

A.4 Verifikation der Graph-Konstruktion bei F2-Funktionen. . . . . . . . . . . . . . 75

B Details zu den Experimenten 79

B.1 Verwendete Parameter bei der Kennzeichenlokalisierung. . . . . . . . . . . . . 79

B.2 Problemfalle bei der Kennzeichenlokalisierung. . . . . . . . . . . . . . . . . . 79

B.3 Verwendete Parameter bei der Ebenendetektion. . . . . . . . . . . . . . . . . . 80

B.4 Weitere Beispielbilder der Ebenendetektion. . . . . . . . . . . . . . . . . . . . 80

Literaturverzeichnis 83

Verzeichnis der Bilder 91

Verzeichnis der Tabellen 93

viii INHALTSVERZEICHNIS

Kapitel 1

Einf uhrung

Die folgende Arbeit beschaftigt sich mit den Moglichkeiten der Verwendungdiskreter Opti-

mierungsverfahrenbei Segmentierungsaufgaben in der Bildverarbeitung. Dabei bezeichnet der

Begriff der Segmentierungeines Bildes allgemein die Zusammenfassung von Pixeln aufgrund

von gewissen Kriterien zu inhaltlich zusammenhangenden Regionen. Diese Definition wirft zwei

Fragestellungen auf: Wie lassen sich anwendungsspezifische Kriterien definieren und wie lasst

sich aufgrund dieser Kriterien eine Segmentierung durchfuhren?

Bisherige Segmentierungsansatze verwenden meistens eine Folge von einzelnen Operatio-

nen und Verarbeitungsschritten wie etwa Kantendetektion und anschließende Kontursuche. Eine

klare mathematische Formulierung der Segmentierungskriterien kann bei dieser Staffelung oft

nicht verwendet werden und ist auch nicht implizit gegeben.

Ein komplett anderer Zugang ist die Segmentierung mit mathematischen Optimierungsver-

fahren wie bei der Bayessche Bildanalyse. Kriterien fur die Segmentierung werden dort anhand

eines Optimierungsproblems angegeben. Der Schwerpunkt dieser Arbeit ist dabei die Verwen-

dung von diskreten Optimierungsproblemen. Als Segmentierungsverfahren kann nach der Ent-

wicklung anwendungsspezifischer Kriterien, im weiteren Verlauf der Arbeit auch alsModell

bezeichnet, ein passendes numerisches Verfahren aus der mathematischen Optimierung gewahlt

werden.

So genannteGraph-Cut-Methodenbesitzen ihren Ursprung in der mathematischen Optimie-

rung. Grundidee ist die Abbildung eines Optimierungsproblems in ein Problem der Graphentheo-

rie. Die Formulierung des Problems in der Sprache der Graphentheorie ermoglicht es, ein breites

Spektrum von Forschungsergebnissen in diesem Bereich zu verwenden. Vor allem die Resultate

der theoretischen Informatik bieten diesbezuglich klar definierte Grenzen der Berechenbarkeit

und Losungsansatze fur die Ermittlung approximierter Losungen.

1

2 KAPITEL 1. EINFUHRUNG

Ziel dieser Arbeit soll es daher unter anderem sein, theoretische Moglichkeiten der Anwen-

dung von Graph-Cut-Verfahren in der Bildverarbeitung aufzuzeigen. Weiterhin werden konkrete

algorithmische Losungen fur ein Problem der industriellen Bildverarbeitung (Kennzeichenloka-

lisierung) sowie des Rechnersehens (Ebenendetektion) entwickelt und durch Experimente veri-

fiziert.

1.1 Literatur uberblick

Bereits in den fruhen Jahren der Bildverarbeitung wurden Segmentierungsprobleme mit ma-

thematischen Optimierungsverfahren gelost. Ausgangspunkt ist stets die MAP-Schatzung von

Zufallsvariablen mit einem zugrunde liegendenMarkov Random Field(MRF) Modell (MRF-

Zufallsvariable). Die fur die Schatzung notwendige Optimierung wird dabei im ursprunglichen

Standardwerk [GG84] der Bayesschen Bildanalyse [Win06] mit dem Gibbs Samplerdurch-

gefuhrt. Dieser Algorithmus ist ein Spezialfall zum allgemeinerenMetropolis-Hasting Algorith-

musbeziehungsweise der Optimierung mitSimulated Annealing. Diese Verfahren konnen auf

allgemeine Zielfunktionen angewendet werden, daher ist es zum Beispiel nicht moglich obere

Schranken fur die Laufzeit anzugeben.

Als weiteres iteratives Verfahren aus den Anfangen sei derIterated Conditional Modes(ICM)

Algorithmus aus dem Beitrag [Bes86] erwahnt. Eine Anmerkung in der dazugehorigen veroffent-

lichten Diskussion [GPS86] legt als erstes die Verbindung zur diskreten Optimierung [PR75,

Cun85] offen und ermoglicht so die exakte MAP-Schatzung von MRF-Zufallsvariablen bei bi-

naren Segmentierungsproblemen [GPS89]. Grundidee ist dieUbertragung auf das Problem des

minimalen Schnittes (Min-Cut) aus der Graphentheorie.

Die Einschrankung auf binare Probleme galt lange Zeit als unuberwindbare Einschrankung1.

Die Arbeiten [IG98, IG99, Ish03] untersuchen daher Bedingungen an die Zielfunktion, fur wel-

che auch bei nicht-binaren Problemen ein globales exaktes Minimum gefunden werden kann.

In [Fer95] wird hingegen versucht, eine Losung des allgemeinen Segmentierungsproblems mit

mehreren Klassen durch eine Aufteilung in binare Probleme zu finden. Die Arbeiten von Boy-

kov, Zabih und Veksler [BVZ98a, BVZ01] 2 verfolgen eineahnliche Grundidee, welche zumα-

Expansion-Algorithmus fuhrt und die Grundlage bildet fur viele weitere Anwendungen. Der Al-

gorithmus ist ein Approximationsalgorithmus3, der nur ein lokales Minimum des NP-schweren

1Diese Ansicht ist auch noch in”aktuellen“ Werken der Bayesschen Bildanalyse vorhanden [Win06].

2Zur Vollstandigkeit seien hier die Arbeiten [BVZ98b, BVZ99a, BVZ99b, Vek99] als verwandte Publikationenaufgefuhrt, die manche Details naher beschreiben.

3Es sei an dieser Stelle erwahnt dass der Algorithmus unabhangig von der Anwendung und dem Ursprung in der

1.1. LITERATURUBERBLICK 3

Ursprungsproblems [DJP*94] sicherstellen kann. Zusammen mit der Abbildung der MAP-Schatz-

ung bei binaren Problemen auf dasMin-Cut-Problemder kombinatorischen Optimierung nach

[GPS86] werden diese Ansatze in der neueren Literatur oft zusammengefasst alsGraph-Cut-

Methodenbezeichnet. Dieser Begriff kann durchaus zu ungewollten Mehrdeutigkeiten fuhren,

da im Bereich der Segmentierung auch andere Definitionen von Schnitten in einem Graphen ver-

wendet werden. Hervorzuheben ist an dieser Stelle der verwandte Begriff desNormalized-Cut

(N-Cut), welcher nur durch einenUbergang von der diskreten zur kontinuierlichen Optimierung

ermittelt werden kann [SM00, SM97, SM98, CWC06].

Als wichtigste Anwendungsgebiete desα-Expansion-Algorithmus sind die Bestimmung von

dichten Tiefenkarten [KZ02, KKZ03, Kol03], die Segmentierung mit einer Teilfixierung der La-

bels bei der interaktiven Segmentierung [BJ00, BJ01a, BJ01b, FZ05, BFL06, RMBK06, YS06],

die Segmentierung von beliebigen Bildern [Vek00] ohne A-Priori-Information, die Segmentie-

rung bei Bildern bestimmter Objektkategorien [KTZ05], Phase Unwrapping [BDV07] und die

Segmentierung auf der Grundlage von Bewegungsinformationen [BT99, XS05, SC06] zu nen-

nen.

Fur die Verwendung von Graph-Cut-Methoden in der Bildverarbeitung als reines Werk-

zeug ist es unerlasslich, theoretische Grenzen der Modellierungsmoglichkeiten bei der Anwen-

dung von Graph-Cut-Methoden aufzuzeigen. Einschrankungen bei der Modellierung liegen dar-

in begrundet, dass die Zielfunktion nur einer beschrankten Funktionsklasse angehoren kann. In

[KZ04] wird f ur eine große Klasse von Zielfunktionen eine allgemeine Graph-Konstruktion an-

gegeben. Die Ausfuhrungen [FD05] sind eine reine theoretische Abhandlunguber die Erweiter-

barkeit dieser beschriebenen Funktionsklasse.

Aufgezeigte theoretische Grenzen konnen in der Praxis naturlich nicht umgangen werden.

Dennoch ist es moglich, durch die Verwendung desQuadratic Pseudo-Boolean Optimization

(QPBO) Algorithmus [RK06, RSZ06] eine partielle Losung allgemeinerer Optimierungsproble-

me zu erhalten.

Neue Ideen, um Graph-Cut-Methoden auch algorithmisch zu verbessern, umfassen die Ver-

besserung der Laufzeit mit neuen fur die Bildverarbeitung angepassten Algorithmen der Opti-

mierung [BK04] sowie die traditionelle Beschleunigung durch Auflosungshierarchien [LSGX05,

SG06, JB06]. Die Moglichkeit, ein Maß fur die Unsicherheit eines Segmentierungsergebnisses

zu erhalten, wird durch [KT06] untersucht.

Die Arbeiten [BK03, KB05] ziehen direkte Verbindungen zu anderen Standardansatzen in

der Bildverarbeitung wie etwalevel-setMethoden.

Bildverarbeitung in der kombinatorischen bzw. diskreten Optimierung anzusiedeln ist.


Trotz der Entwicklung neuer Verfahren fur die MAP-Schatzung von MRFs wie etwaLoopy

Belief Propagation[YFW00] sind Graph-Cut-Methoden bezuglich ihrer Geschwindigkeit und

der Gute des gefundenen Optimums fuhrend [KR06, SZS*06].

1.2 Verwendete Notationen

Pr(X = X) Fur diskrete ZufallsvariablenX sei damit die Wahrscheinlichkeit des Ereignisses

X = X bezeichnet. Bei stetigen Zufallsvariablen hingegen steht diese Notation fur

die Dichte vonX in Abhangigkeit vonX. Abkurzend kann auch die NotationPr(X) in

eindeutigen Situationen verwendet werden. Hingegen impliziert die SchreibweisePr(X )

eindeutig die Dichte oder Wahrscheinlichkeit als Funktion.

E(X ) bezeichnet den Erwartungswert der ZufallsvariablenX .

δ(x) bezeichnet die Delta-Funktion.x kann eine reelle Zahl oder ein Pradikat sein:

δ(x)def=

1 x ist wahr, oderx = 1

0 sonst.(1.1)

P(A) ist eine Notation fur die Potenzmenge einer MengeA..

]A bezeichnet fur endliche MengenA die Kardinalitat oder Anzahl der Elemente der MengeA.

R+ ist die Menge der nicht-negativen reellen Zahlen.

‖ · ‖ = ‖ · ‖2, ‖ · ‖∞ aufRn definierte euklidische Norm und Maximum-Norm.

Ei(·), Ei,j(·), EC(·) sind Bezeichnungen fur einzelne nummerierte Funktionen, welche fur jedes

i, j oderC verschieden gewahlt werden konnen.

1.3 Aufbau der Arbeit

Bei der Strukturierung der folgenden Arbeit wurde auf klare Abgrenzung von bekannten theore-

tischen Ergebnisse zu neuen direkten Anwendungen dieser Ergebnisse bei Problemen der Bild-

verarbeitung geachtet. Dabei zeigen die theoretischen Ausfuhrungen auch Moglichkeiten auf,

welcheuber den Horizont der hier besprochenen praktischen Problemlosungen hinausgehen.

1.3. AUFBAU DER ARBEIT 5

In Kapitel 2 werdenMarkov Random Fieldsvorgestellt, welche die Grundlage der Bayes-

schen Bildanalyse bilden. Das darauf folgende Kapitel3 prasentiert wichtige Ergebnisse der dis-

kreten Optimierung bei Graph-Cut-Methoden und schlagt im letzten Abschnitt die Brucke zur

Bayesschen Bildanalyse. Ausgehend von den ausfuhrlich beschriebenen Moglichkeiten der Opti-

mierungsverfahren ist es moglich, in Kapitel4 verschiedene Anwendungsmoglichkeiten prazise

und vollstandig vorzustellen. Eine Verifikation der im Rahmen dieser Arbeit entstandenen prak-

tischen Ergebnisse und Neuerungen wird in Kapitel5 durch verschiedene Experimente vorge-

nommen.

Die Arbeit schließt in den Kapiteln6 und7 mit einemUberblickuber Verbesserungsmoglich-

keiten und Ansatze fur eine weitere Forschung auf dem behandelten Gebiet sowie mit einer Zu-

sammenfassung der vorgestellten Ergebnisse. KapitelA im Anhang bietet dem interessierten Le-

ser zusatzliche mathematische Details in Form von Beweisen und Zusammenhangen. Verwende-

te Parameter bei den Experimenten und zusatzliche Beispielbilder konnen KapitelB entnommen

werden.

Kapitel 2

Markov Random Fields

In diesem Kapitel soll zunachst der fur diese Arbeit notwendige Begriff des Markov Random

Field (MRF) motiviert und erklart werden. Im zweiten Teil des Kapitels wird die Problemstellung

der”Schatzung“ verborgener Bildinformationen mittels MRFs erlautert. Wie diese Schatzung

effizient mit so genannten minimalen Schnitten durchgefuhrt werden kann, ist Bestandteil der

folgenden Kapitel und zentraler theoretischer Schwerpunkt dieser Arbeit.

2.1 Definition

Grundlage fur die Definition von MRFs bildet eine Nachbarschaftsstruktur oder allgemeiner ein

Graph. Ein Graph besteht aus einer Knotenmenge und einer auf dieser Menge definierten Rela-

tion (Nachbarschaftsrelation, Kantenmenge):

Definition 2.1 Ein Graph1 S ist ein Tupel(V, N) bestehend aus einer abzahlbaren MengeV

und einer irreflexiven RelationN ⊆ V × V .

Ein typischer Graph in der Bildverarbeitung ist zum BeispielZn mit den folgenden Relatio-

nen:

N1def=(p, q) | ‖p− q‖2 = 1; p, q ∈ Zn (2.2)

N2def=(p, q) | ‖p− q‖∞ = 1; p, q ∈ Zn. (2.3)

1Im Folgenden wird nicht der Begriff der Nachbarschaftsstruktur verwendet, da keine Symmetrie der Relationgefordert sein soll [KR04]. Dem Leser sei hiermit dennoch empfohlen, den Begriff der Nachbarschaft und derNachbarschaftsstruktur damit zu assoziieren, um den direkten Bezug zur Bildverarbeitung herzustellen.

7

8 KAPITEL 2. MARKOV RANDOM FIELDS

Fur n = 2 werden diese Relationenublicherweise als 4er- und 8er-Nachbarschaft bezeichnet.

Fur eineubersichtlichere Schreibweise ist es von Vorteil den Begriff der (gerichteten) Nachbar-

schaft eines Knoten (Punktes) zu definieren:

Definition 2.4 Die (gerichtete) NachbarschaftNS(p) oder abkurzendN(p) eines GraphenS =

(V, N) bezuglich eines Knotenp ∈ V ist auf folgende Weise definiert:NS(p)def= q | (p, q) ∈ N.

Zugehorig zu einem speziellen Graphen lassen sich stochastische Felder betrachten:

Definition 2.5 Eine MengeXp | p ∈ V heißtstochastisches Feld, allgemeiner stochastischer

Prozessoder Random Fieldeines GraphenS = (V, N), wenn fur alle p ∈ V : Xp eine

Zufallsvariable2 ist.

Definition 2.6 (Multiindex-Konvention)

EineEinschrankungXM einer MengeXp | p ∈ V ist wie folgt definiert:XMdef= Xp | p ∈

V ∩M. Analog soll dieser Begriff fur Vektoren(Xp)p∈V verwendet werden.

Die Definition eines stochastischen Feldes verlangt nicht die Unabhangigkeit der Zufalls-

variablenXp voneinander. Die Abhangigkeit der Zufallsvariablen ist ein entscheidender Aspekt.

Allgemein ist eine beliebige ZufallsvariableXp immer von allen anderen ZufallsvariablenXq mit

q 6= p abhangig. Um diese starke Abhangigkeit zu schwachen und die Modellierung einfacher

zu gestalten, ist es moglich zu fordern, dass eine ZufallsvariableXp nur von ihren NachbarnXq

mit q ∈ N(p) abhangt und von allen anderen unabhangig ist. Diese Forderung fuhrt zu der neuen

Definition eines Markov Random Fields:

Definition 2.7 Eine MengeXp | p ∈ V heißtMarkov Random Fieldeines GraphenS, wenn

sie ein stochastisches Feld ist und folgender Bedingung genugt:

∀p ∈ V : Pr(Xp | XV \p ) = Pr(Xp| XNS(p) ). (2.8)

Anschaulich kann diese Definition in der Bildverarbeitung folgendermaßen betrachtet wer-

den: Wenn die ZufallsvariablenXp die Pixelwerte eines Bildes sind und der Graph wie im obigen

Beispiel eine Gitterstruktur mit der 8er Nachbarschaft darstellt, dann hangen die Pixelwerte eines

einzelnen Punktes nur von den Pixelwerten seiner Umgebung ab.

2Auf die genaue Definition einer Zufallsvariable bezuglich eines Wahrscheinlichkeitsraumes soll an dieser Stelleverzichtet werden.

2.2. SATZ VON HAMMERSLEY-CLIFFORD 9

Die Definition des MRF ist nichts anderes als dasn-dimensionale Analogon einer einfachen

Markov-Kette. Die Abhangigkeit einer Markov-Kette wird meist bezuglich der Zeit veranschau-

licht: Eine ZufallsvariableXp ist dann nur vom vorherigen ZeitpunktXp−1 abhangig. Durch den

zugrunde liegenden Graphen eines MRF kann die Abhangigkeit der ZufallsvariableXp ortlich

betrachtet werden.Xp ist durch die Markov-Einschrankung (2.8) nicht mehr global abhangig,

sondern nur lokal.

Abschließend noch zwei kleine Definitionen, welche in der Formulierung weiterer Resultate

von Vorteil sind:

Definition 2.9 Die Gibbs-Darstellungeiner VerteilungPr(X = X), ist die bijektive Transfor-

mation einer Verteilung in eineEnergiefunktion EX (X)def= − log(Pr(X = X)). Dabei bildet

die FunktionEX in die MengeR ∪ ∞ ab.

Bei einer Likelihood-Verteilung wird oft auch in diesem Zusammenhang von der log-Likeli-

hood-FunktionE gesprochen. Es wurde an dieser Stelle bewusst der Begriff der Gibbs-Verteilung

vermieden, da jede beliebige Verteilung eine Gibbs-Darstellung besitzt und daher auch in die-

sen Sinne eine Gibbs-Verteilung ist. Die FunktionEX wird im Folgenden auch einfach alsE

bezeichnet, falls der Zusammenhang zur zugehorigen Zufallsgroße eindeutig ist.

2.2 Satz von Hammersley-Clifford

Ein wichtiger und anschaulicher Begriff aus der Graphentheorie ist der Begriff der Clique in

einem Graphen:

Definition 2.10 Eine TeilmengeC ⊆ V von Knoten eines GraphenS = (V, N) heißtClique,

wenn∀p ∈ C : C \ p ⊆ NS(p).

Definition 2.11 Die maximale Cliquengroßeω(S) ist definiert durch:ω(S)def= max

C ist Clique inS]C.

Aus der Definition der Clique geht hervor, dass die leere Menge sowie jeder einzelne Knoten

Cliquen bilden. Entscheidend fur die Charakterisierung von MRFs ist das folgende verbluffende

Resultat von Hammersley, Clifford aus dem Jahr 1968:

Satz 2.12Es seiX = Xp p∈V ein stochastisches Feld eines GraphenS = (V, N). Dann gilt:

X ist ein MRF ⇐⇒ Pr(X = X) ist eine Verteilung mit der Gibbs-Darstellung:

E(X) =∑

C ist eine Clique inS

EC(XC). (2.13)


Beweis zu 2.12: Ein Beweis kann in [Pol] gefunden werden.

Die einzelnen FunktionEC in der Zerlegung (2.13) werden auch oft als Cliquen-Potentiale

bezeichnet. Durch diesen Satz kann die Maximierung der Wahrscheinlichkeit eines MRFs zu

einer Minimierung der Energiefunktion umformuliert werden. Im Folgenden wird die Schatzung

zunachst allgemein beschrieben. Wie sich Funktionen des Typs (2.13) fur bestimmte Annahmen

minimieren lassen, ist Bestandteil des Abschnittes3.4.4.

2.3 Schatzung mittels MRF

2.3.1 MAP-Schatzung

Zunachst ein paarubliche Notationen aus der Bildverarbeitung: Das BildI ist ein (Zufalls-)

Vektor der Form( Ip )p∈P . Die einzelnen WerteIp reprasentieren dabei die Pixeleigenschaften

des Pixelsp ∈ P wie etwa Grauwert, Farbinformationen oder andere Maße. Im Folgenden wird

mit der NotationI das Bild als Zufallsvariable betrachtet und eine Auspragung davon mitI

bezeichnet. Die MengeP ist die Menge aller Punkte des Bildes. Weiterhin sei darauf ein Graph

S = (P , N) definiert.

I ist im hier behandelten Kontext die Beobachtung bei einer Zustandsschatzung. Ziel ist es,

die grundlegenden Informationen des Bildes zu extrahieren. Im speziellen Fall der Segmentie-

rung, ist dies die Einteilung des Bildes in verschiedene beschriftete (mit Zahlen von1 bis K)

Bereiche. Jeder Pixel besitzt demnach die Information der Zugehorigkeit zu einem Bildbereich.

Sei deshalb mitL, beziehungsweise der AuspragungL = ( Lp )p∈P mit Lp ∈ 1, . . . , K die

Beschriftung eines Bildes dargestellt. Einzelne WerteLp der Beschriftung werden alsLabel oder

Zustandbezeichnet

Ganzahnlich zu der Modellierung bei Hidden-Markov-Modellen (siehe Zusammenhang von

MRF und Markov-Ketten) ist nur das BildI beobachtbar. Die eigentlichen ZustandeLp des

Markov-Modells bleiben unsichtbar und mussen aus der Beobachtung und den zugrunde lie-

genden Abhangigkeiten geschatzt werden. Mit Abhangigkeiten sind hier die stochastischen Ab-

hangigkeiten der einzelnen ZufallsvariablenLp gemeint. Bei Hidden-Markov-Modellen werden

diese durch eine einfache stationare3 Markov-Kette alsUbergangswahrscheinlichkeiten und Zu-

standswahrscheinlichkeiten reprasentiert. Allgemein gesehen ist dies eine Modellierung der A-

Priori-Wahrscheinlichkeit vonL.

3stationar, homogen⇐⇒ Ubergangswahrscheinlichkeiten sind zeitunabhangig

2.3. SCHATZUNG MITTELS MRF 11

Die hier vorgestellte Schatzung mittels MRF ist eine MAP-Schatzung:

LMAP = argmaxL

Pr(L = L | I = I) = argmaxL

Pr(L = L , I = I) =

= argmaxL

Pr(I = I|L = L)Pr(L = L). (2.14)

Die VerteilungenPr(I = I | L = L) undPr(L = L) werden in diesem Kontext auch oft

als Likelihood-Verteilung beziehungsweise A-Priori-Verteilung bezeichnet. Abkurzend sollen im

weiteren Verlauf dafur die BezeichnungenPr(I|L) undPr(L) verwendet werden.

2.3.2 Annahmen der Schatzung

In vielen Arbeiten der Bayesschen Bildanalyse [Win06, BVZ98a] werden folgende Modellie-

rungsannahmen vorgenommen:

A1. Die Likelihood-Verteilung lasst sich zerlegen durch:Pr(I|L) =∏p∈P

Pr(Ip|Lp).

A2. L ist ein MRF auf dem GraphenS.

Die Annahme A1 ist aber fur die Praxis ungenugend (siehe Abschnitt4 und [KTZ05]). Aus

diesem Grund soll im weiteren Verlauf anstatt 1 und 2 auch die Annahme A1’ untersucht werden:

A1’ . Pr(L|I) ist ein MRF auf dem GraphenS4

2.3.3 Vereinfachungen der Schatzung

Aus den bisher gewonnenen Erkenntnissen und Annahmen kann die Schatzung in ein entspre-

chendes diskretes Optimierungsproblem umformuliert werden. Es sei zunachst noch einmal die

MAP-Schatzung als Minimierung der Energiefunktion vonPr(L|I) formuliert:

LMAP = argminL

(− logPr(L|I)) = argminL

(− logPr(I|L)− logPr(L)). (2.15)

4Genauer gesagt definiert man hier eine ZufallsvariableY(I) abhangig vom ParameterI mit der VerteilungPr(L|I). Die Forderung ist daraufhiin, dassY(I) ein MRF ist.


Untersuchung von A1 und A2

Durch Annahme A2 und den Satz von Hammersley-Clifford2.12 lasst sich− log(Pr(L)) in

die Form von Gleichung (2.13) bringen. Als Vereinfachung lasst sich fur die zu minimierende

Funktion (proportional zur Energiefunktion vonPr(L|I)) E(L) schreiben:

E(L) = − log(Pr(I|L)) +∑


EC(LC). (2.16)

Annahme A1 ergibt eine weitere Vereinfachung zu:

EA1,2(L) = − log

(∏p∈P

Pr(Ip|Lp)

)+

∑C ist eine Clique inS

EC(LC)

= −∑p∈P

log(Pr(Ip|Lp)) +∑


EC(LC)

=∑p∈P

EpLikelihood(Lp) +

∑C ist eine Clique inS

EC(LC). (2.17)

Untersuchung von A1’

Annahme A1’ ergibt hingegen eine verallgemeinerte Form:

EA1’ (L) =∑


EIC(LC). (2.18)

In beiden Fallen bestimmt die maximale Cliquengroßeω(S) die Anzahl der Argumente der

FunktionenEC undEIC .

2.3.4 Beispiele

Es sollen im Folgenden ein paar Beispiele fur die Schatzung mittels MRFs vorgestellt werden.

In diesen Beispielen wird deutlich wie die Verteilungen modelliert werden konnen und welche

Energiefunktionen sich daraus ergeben.


Binare Bildrestaurierung

Gegeben sei ein verrauschtes Binarbild. Ziel ist es, ausgehend von einer Modellierung des Rau-

schens und einer Modellierung der A-Priori-BildinformationPr(L) das Originalbild”moglichst

gut“ zu rekonstruieren.

Die moglichen Werte der PixelIp sowie die Werte der LabelsLp (Pixelwerte des Original-

bildes) seien−1 und 1. Analog zu [Win06] sei das RauschenN als multiplikatives Rauschen

modelliert, welches einer Bernoulli-Verteilung unterliegt:

Pr(Np = v) =

q v = −1

1− q v = +1. (2.19)

Die Beobachtung ergibt sich durch die komponentenweise Multiplikation vonN undL:

∀p ∈ P : Ip = Np · Lp (2.20)

Das Modell erfullt demnach Annahme A1 und A2. Fur die Likelihood-FunktionPr(Ip|Lp)

einzelner Pixel gilt:

Pr(Ip|Lp) =

q Ip = −Lp

1− q Ip = Lp

(2.21)

Die Energiefunktion der VerteilungPr(I|L) kann daher folgendermaßen geschrieben werden

(ein Term aus Gleichung (2.17)):

− logPr(I|L) = −]p | Ip = −Lp log q − ]p | Ip = Lp log(1− q). (2.22)

Aus

δ(Ip = Lp) =1

2(IpLp + 1) (2.23)

δ(Ip = −Lp) = 1− δ(Ip = Lp) (2.24)

= −1

2(IpLp − 1) (2.25)

folgt unmittelbar mit der Konstantec = ]P log(

q1−q

), welche bei der Optimierung ver-

nachlassigt werden kann:


− logPr(I|L) = −1

2log

(1− q

q

)∑p∈P

IpLp + c. (2.26)

Als A-Priori-Modell sei ein Spezialfall (homogene Gewichtung mitα > 0) des so genannten

Ising-Modells [Isi25] verwendet mit der Energiefunktion:

− logPr(L) = −α∑

(p,z)∈N

LpLz. (2.27)

Anschaulich kann man sich Gleichung (2.27) als Bewertung von homogenen Flachen vor-

stellen. Die Energiefunktion des A-Priori-Modells hat dabei zwei mogliche Minima:L ≡ −1

undL ≡ 1. Generell liefert ein Bild mit großen zusammenhangenden homogenen Flachen eine

niedrigeren Funktionswert als ein Bild mit vielen Objektgrenzen.

Der Parameterα dient dazu, in der Praxis die Gewichtung zwischen der A-Priori-Information

und dem Einfluss der Beobachtung einzustellen. Die zu minimierende EnergiefunktionEA 1,2 =

E1(L) besitzt dann, bis auf eine additive Konstante, die folgende Form:

E1(L) = −1

2log

(1− q

q

)∑p∈P

IpLp − α∑

(p,z)∈N

LpLz. (2.28)

Diese Art von Energiefunktionen lasst sich effizient und global mit Graph-Cut-Methoden op-

timieren (siehe Abschnitt3.3). Abbildung2.1 zeigt ein Beispiel der binaren Bildrestaurierung.

Das entstandene rechte restaurierte Bild ist eine MAP-Schatzung vonL und wurde mit den in Ka-

pitel 3 beschriebenen Graph-Konstruktionen und Algorithmen durchgefuhrt. Das dazugehorige

ProgrammtestImageRestoration ist Bestandteil der zu dieser Arbeit gehorenden Soft-

ware. Es sei abschließend darauf hingewiesen, dass fur die binare Bildrestaurierung ebenfalls

ein normaler Medianfilter angewendet werden kann, welcherahnliche Ergebnisse liefert. Eine

theoretische Verbindung zwischen beiden Ansatzen wird in AbschnittA.1 erlautert. Die obige

Darstellung als Anwendung von Graph-Cut dient demnach ausschließlich zur Vorstellung der

theoretischen Ergebnisse und ist fur die Praxis als gering zu bezeichnen.


Bild 2.1: Binare Bildrestaurierung (Links) Originalbild, (Mitte) verrauschtes Originalbild,(Rechts) MAP-Schatzung des Originalbildes mit Graph-Cut (α = 0.3, p = 0.4)

Das verallgemeinerte Potts-Modell

Das Potts-Modell kann als Verallgemeinerung des speziellen Ising-Modells (2.27) angesehen

werden. Das einfache Potts-Model

− logPr(L) = α∑

(p,q)∈N

δ(Lp 6= Lq). (2.29)

ist dabei nicht auf binare Werte vonL beschrankt, sondern kann bei einer beliebigen An-

zahl von Labels verwendet werden. Wie auch beim Ising-Modell wird hier die Existenz großer

homogener Flachen (bzgl.L) belohnt.

Das verallgemeinerte Potts-Modell wurde von [BVZ98a] vorgestellt. Vergleichbare Ansatze

fur die Bildverarbeitung lassen sich aber bereits schon fruher in den Arbeiten von Graffigne

[Gra87] finden. Wie beim ursprunglichen Ising-Modell werden hier Kanten zwischen Punkten

mit verschiedenen Labels (Grenze zwischen zwei Regionen) nicht homogen mit einer Konstante

α bewertet, sondern mit einer ortsabhangigen GewichtungEp,q ≥ 0:

∑(p,q)∈N

Ep,q δ(Lp 6= Lq) (2.30)

In [BJ01b, BFL06] wird Ep,q mit einer Funktion abhangig von der BeobachtungI gewahlt,

daher kann bei diesen Arbeiten Modell (2.30) nicht als A-Priori-Modell verwendet werden. Eine

Interpretation im Sinne von Annahme A1’ (Abschnitt2.3.2) ist in diesem Fall hingegen moglich

und sinnvoll. Fur eine ausfuhrliche Beschreibung der Gewichtung aus [BJ01b, BFL06] sei an

dieser Stelle auf Abschnitt4.1 verwiesen. Es wird sich im weiteren Verlauf der Arbeit heraus-

stellen, dass eine Schatzung mittels MRFs mit einem verallgemeinerten Potts-Modell effizient

mit minimalen Schnitten in Graphen gelost werden kann.

Kapitel 3

Schatzung von MRF-Zustanden mit

minimalen Schnitten

Dieses Kapitel bildet den theoretischen Kern der vorliegenden Arbeit. Zunachst soll hier das Prin-

zip des”minimalen Schnittes“ (Min-Cut, Graph-Cut) in Graphen vorgestellt werden. Ausgehend

von einer klar definierten Problembeschreibung werden einige Spezialfalle, Verallgemeinerun-

gen und Zusammenhange zu anderen Problemen der diskreten Optimierung hergestellt. Die No-

tation und die Darstellung der Resultate folgt dem Buch von Schrijver [Sch04]. An dieser Stelle

sei ebenfalls das Buch von Kleinberg und Tardos [KT05] empfohlen. Abschnitt3.2 beschreibt

anschließend mogliche effiziente Algorithmen zur Bestimmung von minimalen Schnitten in Gra-

phen.

Welche diskreten Optimierungsprobleme lassen sich mit minimalen Schnitten losen? Diese

Frage ist der Ausgangspunkt der Arbeiten [PR75, KZ04, FD05, RK06] und entscheidend fur die

Anwendung in der Bildverarbeitung. Ziel ist es, eine entsprechende Charakterisierung von Ziel-

funktionen zu erreichen. So kann bei einem gegebenen Optimierungsproblem der Bildverarbei-

tung erkannt werden, ob eineUbertragung auf das Problem eines minimalen Schnittes moglich

ist. Die Resultate dieser Arbeiten werden in Abschnitt3.3naher erortert.

Ausgehend von den erarbeiteten Grundlagen aus Kapitel2 wird weiterhin in Abschnitt3.4

die Schatzung mittels MRFs mit demα-Expansion-Algorithmus vorgestellt.

17

18 KAPITEL 3. SCHATZUNG VON MRF-ZUSTANDEN MIT MINIMALEN SCHNITTEN

3.1 Minimale Schnitte in Graphen

3.1.1 Problemdefinition

Im Folgenden sollen gewichtete GraphenG = (V, N, w) mit der nicht-negativen Kantengewich-

tungw : N → R+ betrachtet werden. Diese Einschrankung auf nicht-negative Gewichte ist eine

wichtige Forderung, um im weiteren Verlauf effiziente Algorithmen zu entwickeln.

Allgemein lasst sich auf der Kantengewichtung eine Erweiterungw : P(N) → R+ definie-

ren (A ⊆ N ):

w(A)def=∑e∈A

w(e). (3.1)

Definition 3.2 Mit ϑout(v) und ϑin(v) sei der Outdegree bzw. Indegree eines Knotensv ∈ V

bezeichnet. Diese Bezeichnung soll an dieser Stelle gleich fur Knotenmengen erweitert werden:

1. ϑout(v)def= (v, q) ∈ N

2. ϑout(A)def= (p, q) ∈ N | p ∈ A, q ∈ V \ A

3. ϑin(v)def= (q, v) ∈ N

4. ϑin(A)def= (q, p) ∈ N | p ∈ A, q ∈ V \ A.

Definition 3.3 Ein s, t-Schnitt oders, t-Cut C eines GraphenG = (V, N) mit s, t ∈ V ist eine

ZerlegungS, V \ S der KnotenmengeV mit S ⊂ V , s ∈ S und t ∈ V \ S. Die SymbolikCsteht sowohl fur die Zerlegung der Knotenmenge als auch fur die darauf induzierte Kantenmenge

(p, q) | p ∈ S undq ∈ V \ S. Fur die zu einem SchnittC gehorende KnotenmengeS wird die

BezeichnungS(C) verwendet.

Definition 3.4 Die Kosteneiness, t-SchnittesC sind gemaß der obigen Vereinbarungen mit

w(C), w(ϑout(S(C))) oder abkurzend|C| bezeichnet.

Offensichtlich gibt es im allgemeinen Fall mehreres, t-SchnitteC, daher ist es von Interesse

den1 Schnitt zu finden, der minimale Kosten besitzt:

argminC ist eins,t-Schnitt inG

w(C). (MinCut)

1Genauer gesagt, wirdein minimaler Schnitt gesucht, da auch das Problem des minimalen Schnittes nicht immereine eindeutige Losung besitzt.

3.1. MINIMALE SCHNITTE IN GRAPHEN 19

Das Problem des minimalen Schnittes, oft als Min-Cut oder auch Graph-Cut bezeichnet,2

ist daher von den Knotens und t abhangig und wird durch diese parametrisiert. Die Knotens

und t werden aus diesem Grund alsTerminalsbezeichnet. Wichtig ist, dass die Kosten eines

Schnittes abhangig von der Richtung sind: Es werden nur Kanten vonS nachV \S gezahlt. Eine

Formulierung des Problems ohne Terminals ist eine wenig sinnvolle Aufgabe und wurde immer

zu der trivialen ZerlegungV, ∅ fuhren.

3.1.2 Zusammenhang zur Bestimmung des maximalen Flusses

Grundlage fur die folgenden Definitionen ist ein GraphG = (V, N). Der Begriff des Flusses

eines Graphen lasst sich am besten anhand eines Rohrsystems erlautern. Jede Kantee eines Gra-

phen reprasentiert eine Rohrverbindung mit der Kapazitat w(e). Ausgehend von einem Knoten

s fließt nun Wasser zu einem Knotent. Ein Fluss ist ein moglicher Zustand der Rohre wahrend

solch eines Vorganges. Dabei gilt das 1. Kirchhoffsche Gesetz, welches sicherstellt, dass an Rohr-

verbindungsstellen (Knoten im Graphen) die Menge des hinfließenden Wassers gleich der Men-

ge des abfließenden Wassers ist. Der Wert eines Flusses ist die transportierte Wassermenge von

Knotens zu Knotent in einem”Zeitpunkt“. Das Rohrsystem (Graph) legt weiterhin die maxi-

male Wassermenge oder den maximalen Fluss fest, der bei solch einem Vorgang vons nacht

transportiert werden kann. Diese Beschreibung wird im Folgenden mathematisch formuliert.

Definition 3.5 Eine Abbildungf : N → R+ (Verallgemeinerung auff : P(N) → R+ analog

zuw) ist eins, t-Fluss oder vereinfachendFluss ⇐⇒

1. ∀ e ∈ N : f(e) ≥ 0

2. ∀ v ∈ V \ s, t : f(ϑout(v)) = f(ϑin(v)).

Definition 3.6 Der Wert eines Flussesf ist |f | def= f(ϑout(s))− f(ϑin(s)), oder|f | def

= f(ϑout(s))

fur den hier behandelten Spezialfall mitf(ϑin(s)) = 0.

Definition 3.7 f ist zulassigbezuglichw ⇐⇒ ∀ e ∈ N : f(e) ≤ w(e).

An dieser Stelle ist es schon moglich das Problem des maximalen Flusses zu definieren:

argmaxf ist ein zulassigers,t-Fluss inG

|f |. (MaxFlow)

2Der Begriff Graph-Cut ist eigentlich ein allgemeinerer Begriff, da es viele verschiedene Moglichkeiten gibteinen Schnitt in einem Graph zu definieren [SM00, GS06].


Der folgende Begriff derUberschussfunktion ist ein praktisches Werkzeug im Beweis des

Min-Cut-Max-Flow-Theorems3.26.

Definition 3.8 Die Uberschussfunktion∆f : P(V ) → R ist definiert als:

∆f (U)def= f(ϑin(U))− f(ϑout(U)). (excess)

Konvention∀ v ∈ V : ∆f (v)def= ∆f (v).

Beispiel 3.9 Aus der Definition derUberschussfunktion∆f folgt sofort, dass fur alle Knotenv,

ausgenommen die Knotens undt, ∆f (v) = 0 gilt.

Lemma 3.10 ∀ U ⊆ V : ∆f (U) =∑v∈U

∆f (v).

Beweis zu 3.10: Es sei zunachst die rechte Seite der Gleichung betrachtet:∑v∈U

∆f (v) =∑v∈U

f(ϑin(v))− f(ϑout(v))

=∑v∈U

∑(p,v)∈N

f((p, v))−∑

(v,p)∈N

f((v, p))

. (3.11)

In der letzten Summe existiert fur jede Kantee ∈ N zwischen zwei Knotenx, y ∈ U der Term

f(e) und der Term−f(e) als Summand (ahnlich wie bei Teleskopsummen). Daher vereinfacht

sich die Gleichung zu:

=∑v∈U

∑p∈V \U, (p,v)∈N

f((p, v))−∑

p∈V \U, (v,p)∈N

f((v, p))

. (3.12)

Die linke Seite der Gleichung kann durch Anwendung der Definitionen zu einemaquivalen-

ten Ergebnis umgeformt werden:

∆f (U) = f(ϑin(U))− f(ϑout(U))

=∑

p∈U, q∈V \U,(q,p)∈N

f((q, p))−∑

p∈U, q∈V \U,(p,q)∈N

f((p, q)). (3.13)

3.1. MINIMALE SCHNITTE IN GRAPHEN 21

Lemma 3.14 Seif ein beliebiger zulassigers, t-Fluss undC ein beliebigers, t-Schnitt, dann

gilt3:

|f | ≤ |C| = w(ϑout(S(C))). (3.15)

Weiterhin gilt die Gleichheit bei dieser Ungleichung⇐⇒

1. ∀ e ∈ ϑout(S(C)) : f(e) = w(e) und

2. ∀ e ∈ ϑin(S(C)) : f(e) = 0.

Beweis zu 3.14: Die Uberlegung aus Beispiel3.9 liefert:

∆f (S(C)) =∑

v∈S(C)

∆f (v) =

=∑

v∈S(C)\s

f(ϑin(v))− f(ϑout(v))+ ∆f (s) =

= ∆f (s). (3.16)

Aus dieserUberlegung folgt nahezu unmittelbar der Beweis des Lemmas:

|f | = −∆f (s)

= −∆f (S(C))

= f(ϑout(S(C)))− f(ϑin(S(C)))

≤ w(ϑout(S(C))) = |C|. (3.17)

Der zweite Teil der Aussage ist aus der obigen Abschatzung ersichtlich.

Der Begriff des Residual-Graphen ist entscheidend fur den Beweis des Satzes3.26sowie fur

die Beschreibung der Algorithmen.

Definition 3.18 Sei e = (p, q) ∈ N eine Kante. Mite−1 sei im Folgenden die Kante(q, p)

bezeichnet. Fur eine KantenmengeS ⊆ N ist weiterhinS−1 def= e−1|e ∈ S.

Definition 3.19 Seif ein zulassiger Fluss. Eine Kantee ∈ G heißtgesattigt (bezuglichf ), wenn

f(e) = w(e).

3Diese Ungleichung wird auch oft als”schwache Dualitat“ bezeichnet um den Zusammenhang zur linearen

Optimierung zu verdeutlichen.


Definition 3.20 Seif ein zulassiger Fluss. DerResidual-GraphDf = (V, Nf ) besitzt die glei-

che Knotenmenge wieG und die Kantenmenge:

Nfdef= e | e ∈ N, f(e) < w(e) ∪ e−1 | e ∈ N, f(e) > 0. (3.21)

Lemma 3.22 Seif ein zulassiger Fluss. Wenn der Residual-GraphDf keinens, t-Pfad besitzt,

dann gelten fur die KnotenmengeS = x ∈ V | ∃Weg von s nach x in Df folgende

Aussagen:

1. C mit S(C) = S ist ein minimaler Schnitt.

2. |f | = w(ϑout(S)) = |C|.

3. f ist ein maximaler Fluss.

Beweis zu 3.22: Alle Kanten an der Grenzevon S mussen gesattigt sein, ansonsten ware es

moglichS zu erweitern (Widerspruch zur Definition vonS):

∀e ∈ ϑoutG (S) : e /∈ Nf (3.23)

Fur alle Kanten an der GrenzezuS gilt analog:

∀e ∈ ϑinG(S) : e−1 /∈ Nf (3.24)

Daraus folgt nach Definition vonNf : f(ϑoutG (S)) = w(ϑout

G (S)) und f(ϑinG(S)) = 0). Die

obige Konstruktion vonC lasst sofort erkennen, dass durchs ∈ S undt ∈ V \ S die Zerlegung

C ein Schnitt ist. Es gelten daher folgende Schlussfolgerungen analog zu Lemma3.14:

|f | = f(ϑout(S))− f(ϑin(S))

= w(ϑout(S)) (3.25)

Annahme: Der SchnittC ist nicht minimal.

Dann gibt es einen SchnittC ′ mit |C ′| < |C|. Daraus folgt aber unmittelbar die Verletzung

von Lemma3.14 durch |C ′| < |f | und man erhalt einen Widerspruch. Die letzte Teilaussage

folgt ebenfalls aus Lemma3.14und Teilaussage 1.

Der folgende Satz ist das essentielle theoretische Fundament fur die effiziente Berechnung

eines minimalen Schnittes. Der Beweis wurde von Ford und Fulkerson im Jahre 1954 fur un-

gerichtete Graphen sowie 1956 von Dantzig und Fulkerson fur gerichtete Graphen gefuhrt. Die

3.2. ALGORITHMEN ZUR BESTIMMUNG DES MINIMALEN SCHNITTES 23

konstruktive Art des Beweises liefert sofort den ersten Ansatz zur Berechnung eines maximalen

Flusses, welcher zum Algorithmus der”erhohenden“ Pfade von Dinic fuhrt. Dieser Algorithmus

wird in Abschnitt3.2.1noch naher dargestellt.

Satz 3.26Min-Cut=Max-Flow Theorem

Sei f eine Losung von(MaxFlow) und C eine Losung von(MinCut)4. Dann gilt: |C| = |f |.Die Kosten eines minimalen Schnittes sind demnach gleich dem Wert des maximalen Flusses

(bezuglich der Terminalss undt).

Beweis zu 3.26: Seif ein maximaler Fluss. Nach Lemma3.14genugt es zu zeigen, dass es einen

s, t-SchnittC mit Kosten|f | gibt.

Annahme: Im Residual-GraphDf gibt es einens, t-PfadP .

Dann sei die FunktionχP wie folgt definiert:

χP (e)def=

1 e ∈ P

−1 e−1 ∈ P

0 sonst

. (3.27)

Diese Definition ist gultig, da man sich auf kreisfreie PfadeP beschranken kann (entwedere ∈ P

odere−1 ∈ P ). Fur geeignetesε > 0 ist dann

f ′def= f + εχP (3.28)

wieder ein zulassiger Fluss mit|f ′| = |f | + ε. Dies ist allerdings ein Widerspruch zur Ma-

ximalitat vonf . Es gibt demnach im Residual-GraphDf keinens, t-Pfad. Dann kann man nach

Lemma3.22einen SchnittC konstruieren mit|C| = |f |.

Bemerkung 3.29 Der Satz3.26 ist ein Spezialfall der Dualitat bei der linearen Optimierung.

Das Problem des minimalen Schnittes ist dual zum Problem des maximalen Flusses.

3.2 Algorithmen zur Bestimmung des minimalen Schnittes

Satz3.26zeigt, dass sich eine Berechnung des minimalen Schnittes in einem Graphen auf die Be-

stimmung des maximalen Flusses eines Graphen zuruckfuhren lasst: Der Residualgraph besitzt

am Ende der Berechnung mindestens zwei Zusammenhangskomponenten. Aufgrund der nicht

4Beide Probleme mussen keine eindeutige Losung besitzen


gesicherten Eindeutigkeit konnen auch mehr als zwei Zusammenhangskomponenten entstehen.

Dadurch ergibt sich der minimale Schnitt als eine der Moglichkeiten, die Zusammenhangskom-

ponenten in zwei entsprechende Gruppen einzuteilen.

3.2.1 Der Algorithmus von Dinic

Der Algorithmus von Dinic gehort zur Gruppe der Augmenting Path (erhohender Pfad) Algorith-

men. Diese Algorithmen verwenden die Idee des Beweises von Satz3.26und versuchen solange

s, t-Pfade im Residualgraphen zu finden und diese zu erhohen, bis durch die Nichtexistenz sol-

cher Pfade ein maximaler Fluss gefunden ist (siehe Lemma3.22). Der Begriff”erhohen“ bedeutet

dabei die Aktualisierung vonf im Sinne von Gleichung (3.28).

Der Algorithmus von Dinic verwendet eine Breitensuche und verarbeitet in einem Zyklus

Stuck fur Stuck alle kurzesten Wege mit einer festen Langek. Die Laufzeit betragtO(mn2).

3.2.2 Der Algorithmus von Kolmogorov und Boykov

Der Algorithmus von Kolmogorov und Boykov [BK04] kann die asymptotische Laufzeit der

bisherigen Max-Flow-Algorithmen nicht verbessern. Der dort vorgestellte Algorithmus besitzt

sogar eine wesentlich schlechtere asymptotische Laufzeit. Es hat sich jedoch in den Experimen-

ten von [BK04] gezeigt, dass fur die Aufgaben der Bildverarbeitung dieser Algorithmus bessere

durchschnittliche empirische Laufzeiten liefert.

Grundlage fur eine Beschleunigung der bisherigen Algorithmen ist die spezielle Struktur der

Graphen bei Bildverarbeitungsproblemen, welche durch Graph-Cut gelost werden konnen:

1. Der GraphG ist bezogen auf die KnotenmengeV \s, tmeistk-regular (lokale homogene

Nachbarschaft).

2. Es existieren viele Verbindungen zu den Terminals.

Der Algorithmus von [BK04] gehort wie der Algorithmus von Dinic zu den Augmenting

Path Algorithmen. Der Algorithmus von Dinic hat bei der Anwendung auf Probleme der Bild-

verarbeitung ein entscheidendes Problem. In jedem Schritt mussen fast alle Pixel (Knoten) neu

verarbeitet werden, um den entsprechenden Suchbaum zu konstruieren.

Der Algorithmus von [BK04] umgeht dieses Problem, in dem von der Quelles und von der

Senket jeweils ein Suchbaum konstruiert wird, welcher in den nachsten Schritten der Pfadsuche

weiterverwendet werden kann. Der Algorithmus liefert eine asymptotische Worst-Case Laufzeit

vonO(mn2|C|).

3.3. DISKRETE OPTIMIERUNG MIT GRAPH-CUT 25

Dinic O(mn2)Boykov und Kolmogorov O(mn2|C|)

Goldberg und Tarjan O(nm log(n2

m))

Tabelle 3.2: Laufzeiten verschiedener Max-Flow Algorithmen

3.3 Diskrete Optimierung mit Graph-Cut

Ziel des folgenden Abschnittes ist es, Klassen von binaren Optimierungsproblemen zu definie-

ren, welche effizient mit minimalen Schnitten in Graphen gelost werden konnen. Dabei besitzt

das Attribut”effizient“ zwei Bedeutungen: polynomielle Laufzeit des Algorithmus und Optimie-

rung mit Zusicherungen fur die Gute des gefundenen Optimums. Eine Charakterisierung dieser

Optimierungsprobleme lasst sich in aller Ausfuhrlichkeit in der Arbeit [KZ04] finden. Die dort

beschriebenen Resultate und Konstruktionen sollen in diesem Abschnitt erlautert und diskutiert

werden.

3.3.1 Das Optimierungsproblem und die FunktionsklassenF2 und F3

Eine klare Definition der Optimierungsprobleme ist Ausgangspunkt der Untersuchung. Allge-

mein soll das folgende diskrete Optimierungsproblem behandelt werden:

L = argminL∈0,1n

F (L). (BinF )

Die FunktionF : 0, 1n → R ist Element einer speziellen Funktionsklasse. Folgende allge-

meine Funktionsklassen werden in [KZ04] vorgestellt:

Definition 3.30 Eine Funktion5 F ist Element der FunktionsklasseF2 ⇐⇒F besitzt eine Darstellung6 mit FunktionenEi undEi,j der folgenden Form

F (L) =n∑

i=1

Ei(Li) +∑i<j

i,j∈1,...,n

Ei,j(Li, Lj). (3.31)

Definition 3.32 Eine FunktionF ist Element der FunktionsklasseF3 ⇐⇒ F besitzt eine

5Diese Definition ist nicht auf binare Funktionen beschrankt.6Die Darstellung (3.31) ist nicht eindeutig.


Darstellung7 mit FunktionenEi, Ei,j undEi,j,k der folgenden Form

F (L) =n∑

i=1

Ei(Li) +∑i<j

i,j∈1,...,n

Ei,j(Li, Lj) +∑

i<j<ki,j,k∈1,...,n

Ei,j,k(Li, Lj, Lk). (3.33)

Dem aufmerksamen Leser, der bereits einen Blick in Kapitel2und den Satz von Hammersley-

Clifford 2.12geworfen hat, wird die Analogie zu der Darstellung (2.13) auffallen. Tatsachlich

sind bis auf eine additive Konstante die FunktionsklassenF2 undF3 als Gibbs-Darstellung ei-

nes MRF mitω(S) ≤ 2 undω(S) ≤ 3 deutbar. Dieser Zusammenhang schlagt eine Brucke zu

der Schatzung mittels MRFs, welche in Abschnitt3.4.4naher erlautert wird. In den weiteren Ab-

schnitten werden aus diesem Grund die FunktionenEi, Ei,j, Ei,j,k (und spater allgemeinerEβ)

ebenfalls als Cliquen-Potentiale bezeichnet.

3.3.2 Regularitat und Graphkonstruktion f ur F2

Die Minimierung allgemeinerF2-Funktionen ist NP-schwer. Ein Beweis dafur ist in [KZ04]

aufgefuhrt und in AbschnittA.3 erlautert. Diese Tatsache ist Ausloser fur eine Untersuchung

der Fragestellung, welche echten Untermengen vonF2-Funktionen auf das Min-Cut-Problem

reduziert werden konnen.

Eine Verbindung zum Problem des minimalen Schnittes lasst sich bereits an der binaren

Darstellung eines SchnittesC erkennen:

Definition 3.34 SeiL ∈ 0, 1n ein binarer Vektor undG ein Graph mitV = s, t, v1, . . . , vn.Dann istCL der Schnitt des Graphen, der durch die ZerlegungS, T entsteht mit:

1. s ∈ S

2. t ∈ T

3. vi ∈ S, wennLi = 0

4. vi ∈ T , wennLi = 1

Analog lasst sich anhand eines Schnittes in eineindeutiger Weise ein VektorL(C) angeben.

Bemerkung 3.35 Es konnen auch Graphen mit mehr alsn + 2 Knoten betrachtet werden. Ein

SchnittC definiert dann zwar in eindeutiger Weise einen Vektor bzw. eine BeschriftungL(C),

7Die Darstellung (3.33) ist ebenfalls nicht eindeutig.


jedoch ist die Umkehrung nicht mehr moglich. Ein SchnittCL lasst sich dennoch, konsistent zur

obigen Definition, als Minimum aller moglichen Schnitte definieren:

CL = argminC ist ein Schnitt mit den Eigenschaften aus Definition3.34

|C|. (3.36)

Zunachst sei die etwas umstandliche Ziel-Beschreibung der Reduktion auf das Min-Cut-

Problem formalisiert und mit einem entsprechenden Begriff versehen:

Definition 3.37 Eine FunktionF heißt graph-darstellbar ⇐⇒ Das zuF gehorende Opti-

mierungsproblem(BinF ) lasst sich auf das Problem(MinCut) des minimalens, t-Schnittes auf

folgende Weise zuruckfuhren:

Zu (BinF ) gibt es einen GraphG = (V, N) mit Knoten (Terminals)s und t sowie eine

Kantengewichtungw : N → R+, so dass gilt:

∃κ : ∀L ∈ 0, 1n : F (L) = |CL|+ κ (3.38)

Da durch|CL| alle Schnitte im GraphenG dargestellt werden konnen, gilt :L = L(C)

Wie lassen sich Funktionen ausF2 charakterisieren, die graph-darstellbar sind? Diese Fra-

gestellung wird durch einen Satz von [KZ04] beantwortet. Vor der Formulierung des Satzes, sei

aber zuerst der entscheidende Begriff der Regularitat eingefuhrt und erlautert:

Definition 3.39 Eine FunktionE : 0, 12 → R heißtregular oder submodular⇐⇒

E(0, 0) + E(1, 1) ≤ E(0, 1) + E(1, 0) (Reg2)

Eine FunktionF ∈ F2 sei ebenfalls als regular bezeichnet⇐⇒ alle FunktionenEi,j einer

F2-Darstellung sind regular.

Beispiel 3.40Die einzelnen Summanden des Ising-Modells(2.27) sind regular (α ≥ 0):

E(0, 1) + E(1, 0) = −α− α ≤ α + α = E(0, 0) + E(1, 1)

Satz 3.42Die Summe von zwei graph-darstellbaren Funktionen ist wieder graph-darstellbar.

Beweis zu 3.42: Siehe Anhang von [KZ04].


Satz 3.43F is graph-darstellbar ⇐⇒ Jeder TermEi,j in der Darstellung(3.31) vonF ist

regular.

Bemerkung 3.44 Es sei bemerkt, dass die Darstellung einer FunktionF in der Form (3.31)

nicht eindeutig ist, die Regularitat davon aber nicht beeinflusst wird.

Die TermeEi(Li) konnen zum Beispiel komplett in die TermeEi,j(Li, Lj) einfließen:

∑i

Ei(Li) +∑i<j

Ei,j(Li, Lj) =∑i<j

(Ei,j(Li, Lj) +

1

n− i− 1Ei(Li) +

1

j − 1Ej(Lj)

)=∑i<j

Ei,j(Li, Lj)

Die Regularitat ist aber invariant bezuglich derAnderung der Darstellung(3.31):

Ei,j(0, 0) + Ei,j(1, 1) = Ei,j(0, 0) + Ei,j(1, 1) +1

n− i− 1

(Ei(0) + Ei(1)

)+

+1

j − 1

(Ej(0) + Ej(1)

)≤ Ei,j(0, 1) + Ei,j(1, 0) + . . .

= Ei,j(0, 1) + Ei,j(1, 0)

Beweis zu 3.43: Die Ruckrichtung soll anhand einer Konstruktion des entsprechenden Graphen

gezeigt werden. In Folge der konstruktiven Art des Beweises ist damit implizit auch ein Algorith-

mus beschrieben, welcher regulareF2-Funktionen minimiert. Die andere Richtung wird spater

allgemeiner bewiesen durch Satz3.53. Fur einen formaleren Beweis des Satzes sei auf Satz (1.8)

im Anhang verwiesen.

Durch Satz3.42ist es moglich, die Konstruktion des Graphen fur die einzelnen Summanden

getrennt vorzunehmen und danach den Gesamtgraphen zusammenzusetzen. Dabei werden die

Kanten zu einer Kantenmenge vereinigt und die Kantengewichte bei gleichen Kanten summiert8 Sei mit V

def= s, t, v1, . . . , vn die Knotenmenge des Graphen bezeichnet. Wichtig bei der

Konstruktion ist die Sicherstellung von nicht-negativen Kantengewichten.

Konstruktion von Ei: Ein TermEi entspricht den Kosten fur Zuweisung vonLi zu den

einzelnen Klassen0 (symbolisiert durch Terminals) und 1 (Terminal t) ohne Beachtung der

Abhangigkeiten zu den anderen Komponenten vonL. Fur jeden TermEi wird daher eine Kante

8Satz3.42sichert eigentlich nur die Aussage des Satzes, aber nicht, dass der zusammengesetzte Graph wirklicheine geeignete Konstruktion des Gesamtproblems ist.


Bild 3.1: Konstruktion des Graphen fur F2 Funktionen mit den verwendeten Abkurzungen ausTabelle (3.45) (Quelle [KZ04])

e zu einem Terminal hinzugefugt. BeiEi(1) − Ei(0) ≥ 0 ergibt sich die Kantee = (s, vi) mit

GewichtEi(1) − Ei(0) (Abbildung3.1 a). Ansonsten wird die Verbindunge von Knotenvi zu

Terminalt mit GewichtEi(0)− Ei(1) gesetzt (Abbildung3.1b). Diese Konstruktion findet auf

folgende Weise ihre plausible Begrundung: Die BedingungEi(1)−Ei(0) ≥ 0 bedeutet, dass die

Kosten fur die Zuweisung vonLi zu Klasse0 (Terminals) großer sind als bei Klasse1. Wenn

nach der OptimierungLi mit 1 belegt ist, gehort die Kantee zum minimalen Schnitt, da die

Knotenvi unds getrennt werden. Die”zusatzlichen“ Kosten der Zuweisung vonLi zu Klasse0

werden demnach beim Optimalwert berucksichtigt.

Konstruktion von Ei,j:

Fur die Konstruktion des Graphen dienen folgende Abkurzungen:(Ei,j(0, 0) Ei,j(0, 1)

Ei,j(1, 0) Ei,j(1, 1)

)=

(A B

C D

)(3.45)


Term Bedingung Kante GewichtEi Ei(1)− Ei(0) ≥ 0 (s, vi) Ei(1)− Ei(0)

Ei(1)− Ei(0) ≤ 0 (vi, t) Ei(0)− Ei(1)Ei,j (vi, vj) B + C − A−DEi,j C − A ≥ 0 (s, vi) C − A

C − A ≤ 0 (vi, t) A− CC −D ≥ 0 (vj, t) C −DC −D ≤ 0 (s, vj) D − C

Tabelle 3.4:Ubersichtuber die Graph-Konstruktion fur regulareF2-Funktionen

Die FunktionEi,j lasst sich in die folgenden additiven Bestandteile zerlegen:

D +

(A− C A− C

0 0

)+

(C −D 0

C −D 0

)+

(0 B + C − A−D

0 0

)(3.46)

Der erste Summand wird bei der Konstruktion vernachlassigt, da es sich nur um eine additive

Konstante handelt. Die beiden folgenden Summanden hangen von einer einzigen Variable ab und

konnen daher analog zu denEi Termen konstruiert werden. Die KostenB + C −A−D zahlen

nur, bei einer Zuordnung von Knotenvi zu Terminals und von Knotenvj zu Terminalt. Daher

kann der letzte Summand in der Zerlegung (3.46) durch eine Kantee = (vi, vj) mit Gewicht

w(e) = B + C −A−D reprasentiert werden (Abbildung3.1c,d). Die Nicht-Negativitat dieser

Kante ist durch die Regularitatsbedingung (Reg2) sichergestellt.

Bemerkung 3.47 An der Zerlegung vonEi,j in Gleichung(3.46) lassen sich auch prinzipielle

Einschrankungen des Modells erkennen. Die Darstellung der FunktionenEi,j lasst sich immer

auf folgendes Modell reduzieren:

Ei,j(Li, Lj) =

Ei,j Lj > Li

0 sonst(3.48)

Diese Darstellung sei im Folgenden als gerichtetes Potts-Modell bezeichnet.

Die Abbildungen3.3und3.2zeigen ein einfaches Beispiel fur die Segmentierung mit Graph-

Cut. Dieses Beispiel soll dieAhnlichkeit von Segmentierungsproblemen und dem Min-Cut-

Problem offenlegen. Ziel ist es, das Originalbild in3.3zu segmentieren. Der konstruierte Graph3.2

enthalt Kanten zwischen Pixelknoten (Knoten im Graphen, die einem Pixel im Bild entsprechen)


Bild 3.2: Schema der Konstruktion des Graphen fur das Beispielbild3.3 und Darstellung desminimalen Schnittes

und den Terminals um die Kosten einzelner Pixel zu kodieren (Ei). Die Kantengewichte zwi-

schen zwei Pixelknoten werden hingegen entsprechend der FunktionenEi,j belegt. Fur diese

beispielhafte Darstellung wird das Potts-Modell verwendet undEi,j so gewahlt, dass bei gerin-

gen Grauwertdifferenzen|Ii − Ij| hohe Kosten in der Zielfunktion entstehen9. Weiterhin soll

die linke obere (bzw. rechte untere) Ecke des 9 Pixel großen Bildes mit hohen Kosten fur den

Vordergrund (bzw. Hintergrund) belegt werden. Bei der anschließenden Optimierung wird da-

her eine optimale Kante zwischen den gegenuberliegenden Ecken gefunden. Eine allgemeinere

Darstellung des Zusammenhangs zur Segmentierung befindet sich in Abschnitt3.4.4.

3.3.3 Vollstandige Charakterisierung

Der Begriff der Regularitat kann wie folgt erweitert werden:

Definition 3.49 Seiα eine Indexmenge mitα ⊆ 1, . . . , n. Fur eine feste BelegungLfix = Lα

9Ein Beispiel fur eine solche Wahl vonEi,j ist die Festlegung von Gleichung4.3 in Abschnitt4.1.3.


Bild 3.3: (Links) Originalbild, (Rechts) Segmentierung aufgrund des minimalen Schnittes inAbbildung3.2

ist dieProjektionFαproj : 0, 1n−]α → R gegeben durch:Fα

proj(B)def= F (L) mit

Lidef=

Lfixγ(i) i ∈ α

Bτ(i) sonst(3.50)

und entsprechenden Funktionenγ undτ fur die Zuordnung der Indizes.

Definition 3.51 SeiF : 0, 1n → R eine Funktion.

1. Fur n = 1 (nur ein Argument) ist jede FunktionF regular.

2. Fur n = 2 ist die FunktionF regular, wenn sie die Bedingung(Reg2) erfullt.

3. Fur n > 2 ist die FunktionF regular ⇐⇒ jede Projektion vonF mit zwei Argumenten

ist regular.

Bemerkung 3.52 Es ist nicht sofort offensichtlich, dass diese Definition wirklich eine Erweite-

rung von Definition3.39darstellt. Grundlage fur die Definition3.39bildete die entsprechende

Darstellung als Summe vonEi und Ei,j. Die obige Charakterisierung ist hingegen direkt un-

abhangig von der Darstellung. Wie in Bemerkung3.44 bereits schon erwahnt, ist der Begriff

der Regularitat 3.39ebenfalls vollstandig von der Darstellung(3.31) unabhangig. Ein genau-

er Beweis fur diesen Sachverhalt und derAquivalenz der beiden Definitionen befindet sich in

[KZ04].

Der folgende Satz ist ein Resultat aus [KZ04]:

Satz 3.53Jede graph-darstellbare Funktion ist regular.


Beweis zu 3.53: Siehe [KZ04].

Eine Verallgemeinerung der Definitionen3.30und3.32ist nahe liegend und wird in der Ar-

beit [FD05] f ur eine vollstandige Charakterisierung der graph-darstellbaren Funktionen verwen-

det. Damit ist [FD05] eine direkte Erweiterung der Ausfuhrungen von [KZ04]. Zur Definition

der KlasseFk soll die Multiindex-Konvention2.6aus Abschnitt2.1verwendet werden:

Definition 3.54 Eine FunktionF ist Element der FunktionsklasseFk ⇐⇒ F besitzt eine

Darstellung mit FunktionenEβ (β ⊆ 1, . . . , n, ]β ≤ k) der folgenden Form:

F (L) =∑

β⊆1,...,n]β≤k

Eβ(Lβ). (3.55)

Ziel der Arbeit [FD05] ist es erneut eine Charakterisierung der Klasse der graph-darstellbaren

Funktionen vorzunehmen. Folgendes Resultat kann fur die KlasseFk aufgestellt werden:

Satz 3.56Die Mengenα undβ seien Indexmengen mitα, β ⊆ 1, . . . , n Weiterhin sei fur eine

beliebige binare FunktionF mit n-Argumenten die NotationFβ mit Fβ = F (L) und (Li =

1 ⇐⇒ i ∈ β) erklart.

Wenn eine FunktionF ∈ Fk die Bedingung

∀α, 2 ≤ ]α ≤ k :∑β⊆α

(−1)]α−]βFβ ≤ 0 (FReg)

erfullt, dann ist sie graph-darstellbar.

Beweis zu 3.56: Siehe [FD05].

Bemerkung 3.57 Die Bedingung(FReg) reduziert sich fur k = 2 und k = 3 auf die Regula-

rit atsbedingung3.51.

3.3.4 Der Zusammenhang zu submodularen Funktionen

Als Einstieg sei gleich die Definition einer submodularen Funktion gegeben:

Definition 3.58 Eine (Mengen-)Funktionf : P(U) → R ist submodular10 ⇐⇒

∀A, B ⊆ U : f(A ∪B) + f(A ∩B) ≤ f(A) + f(B) (SubMod)

10Analog lassen sich die Begriffe supermodular (≥) und modular (=) mit einer entsprechendenAnderung derRelation in BedingungSubModdefinieren.


Der Zusammenhang von Mengenfunktionenf und binaren FunktionenF kann in folgender

Weise dargestellt werden:

SeiM eine endliche Menge mitn Elementenxi fur 1 ≤ i ≤ n. Fur jede Mengenfunktion

f : P(U) → R kann eine entsprechende binare FunktionFf mit Ff (χA)def= f(A) definiert wer-

den.χA ist eine Schreibweise der charakteristischen Funktion vonA als binarer Vektor. Diese

Zuordnung ist bijektiv, denn zu jeder binaren FunktionF kann in analoger Weise eine Mengen-

funktion fF deklariert werden. Diese Bijektivitat liegt in derAquivalenz der Darstellung einer

Menge in Mengenschreibweise und als charakteristische Funktion begrundet. Aus diesem Grund

sei im Folgenden der Begriff der Submodularitat (SubMod) und Regularitat3.51fur binare Funk-

tionen und Mengenfunktionen gleichermaßen verwendet.

Eine Bemermerkunguber den Zusammenhang zwischen submodularen Funktionen und graph-

darstellbaren Funktionen findet sich bereits in [KZ04]. Schon in der Arbeit von Cunningham

[Cun85] konnte gezeigt werden, dass das Problem des minimalen Schnittes (MinCut) als Mini-

mierung einer submodularen Funktion umformuliert werden kann.

Satz 3.59Jede submodulare Funktionf ist regular im Sinne von Definition3.51.

Beweis zu 3.59: Die Ubertragung, bezuglich der obigen Beschreibung der bijektiven Zuordnung

zwischen Mengenfunktionen und binaren Funktionen, der Definition3.39fuhrt zu der folgenden

Bedingung:

∀x, y ∈ M, x 6= y ∀D ⊆ M \ x, y :

f(D) + f(D ∪ x, y) ≤ f(D ∪ x) + f(D ∪ y) (3.60)

Es bleibt also zu zeigen, dass submodulare Funktionenf die Bedingung (3.60) erfullen. Seien

D, x, y so gewahlt wie es Bedingung (3.60) vorschreibt. MitAdef= D ∪ x undB

def= D ∪ y

folgt unmittelbar:

f(A ∪B) = f(D ∪ x, y) (3.61)

f(A ∩B) = f(D) (3.62)

Damit folgt aus der Submodularitat (SubMod) mit A, B die Regularitatsforderung (3.60).

Satz 3.63Jede regulare Funktionf im Sinne von Bedingung3.51ist submodular.


Literatur Resultate Funktionsklasse[Cun85, PR75] graph-darstellbare Funktionen sind

submodularsubmodulareFunktionen,

”cut

functions“[KZ04] F2-regular⊂ F3-regular⊆ graph-

darstellbar⊆ regular= submodularregulare Funktio-nen

[FD05] Satz3.56 Fk-Funktionenmit der Eigen-schaft (FReg)

Tabelle 3.6: Literaturverweise: Charakterisierung der graph-darstellbaren Funktionen

Beweis zu 3.63: Zu zeigen ist, dass aus der Bedingung (3.60) die Submodularitat der Funktionf

folgt. In [KZ04] wird die Bedingung (3.60) als alternative Charakterisierung der Submodularitat

angefuhrt. Daraus folgt unmittelbar der Beweis des Satzes.

Korrolar 3.64 Die Begriffe regular und submodular sindaquivalent.

Die Kriterien der Graph-Darstellbarkeit sind demnach vielfaltig und fallen bei den FallenF2

undF3 komplett zusammen. Abbildung3.4 versucht diese Zusammenhange zu verdeutlichen.

In Tabelle3.6 werden noch einmal die Literaturverweise mit den entsprechenden Resultaten

dargestellt.

Bild 3.4: Darstellungen der Beziehungen der einzelnen Funktionsklassen: (Links) fur Fk-Funktionen, (Rechts) fur die SpezialfalleF2 undF3. Die Freedman-Drineas Bedingung verweistauf die hinreichende Bedingung (FReg) von [FD05].


3.4 α-Expansion-Algorithmus

Bisher wurden Resultate vorgestellt, welche es ermoglichen, das binare Optimierungsproblem

(BinF ) fur Funktionen mit gewissen Einschrankungen (Regularitat, Fk) zu losen.Ubertragen

auf die Zuweisung zu bestimmten Klassen wurden daher nur Zweiklassen-Probleme gelost. Bei

der ursprunglichen Zielsetzung der Schatzung mittels MRFs wird aber die Einteilung inK un-

terschiedliche Klassen benotigt (siehe Abschnitt2.3.1):

L = argminl∈1,...,Kn

F (L) (OptF )

Ein Ansatz mit Blick auf die bisherige Vorgehensweise ware es, wieder zusatzliche Ein-

schrankungen fur die Zielfunktionen zu suchen, so dass auch dieses nicht-binare Problem auf

das Problem des minimalen Schnittes zuruckgefuhrt werden kann. Die Arbeiten von Ishikawa et

al. [IG98, IG99, Ish03] verfolgen diese Idee und gelangen zu einer FunktionsklasseK ⊂ F2.

Diese Funktionsklasse beinhaltet alle Funktionen mit konvexen11 Cliquen-PotentialenEi,jK der

Form:

Ei,j(Li, Lj)def= Ei,j

K (Li − Lj) (3.65)

Diese Funktionsklasse schrankt die Modellierung stark ein. So genugt zum Beispiel das Potts-

Modell (2.29) nicht diesen Bedingungen.

Eine weitere Ansatzmoglichkeit ist die Erweiterung des Min-Cut-Problems (MinCut) auf

ein ahnliches Problem mit mehr als zwei Terminals. Diese Formulierung wird als”Minimum-

Multiway-Cut“ bezeichnet. Die Minimierung ist fur beliebige Graphen leider NP-schwer [DJP*94].

Die Suche nach einem exakten Algorithmus, welcher in polynomieller Zeit lauft, kann daher op-

timistischeren Forschernuberlassen werden.

In der Bildverarbeitung ist die Suche nach”exakten“ Algorithmen oft gar nicht wesent-

lich. Typische Einschrankungen bei Anwendungen sind der Informationsverlust des Aufnah-

meprozesses, gravierende Modellannahmen und haufig auftretende Problemformulierungen, die

aufgrund ihrer Komplexitat generell nicht exakt gestellt werden konnen. Daher sind ohne Be-

schrankung der Allgemeinheit, die Auswirkungen der Approximation bei der Optimierung im

Gegensatz zu anderen Einflussen vernachlassigbar.

Die Arbeiten [Vek99, BVZ99a] stellen daher ein Algorithmus vor, welcher nicht immer das

globale Optimum berechnet, sondern eine Art lokales Optimum. Dabei erfolgt die Berechnung

11Die Konvexitat beschrankt sich bei Funktioneng : N → R auf∀x ∈ N : g(x + 1)− 2g(x) + g(x− 1) ≥ 0.

3.4. ALPHA-EXPANSION-ALGORITHMUS 37

Bild 3.5: Auswirkungen einer Iteration desα-Expansion-Algorithmus (α-Erweiterungsschritt)am Beispiel der Klasse der weißen Pixel [KZ04].

der Losung auf iterative Weise. Ein Teil des Gesamtproblems wird in jeder Iteration auf ein

binares Problem abgebildet und mit denublichen Algorithmen (siehe Abschnitt3.2) gelost.

3.4.1 Beschreibung des Algorithmus

Ziel soll es sein, Probleme der Form (OptF ) zu losen. In Abschnitt3.4.3 wird anschließend

gezeigt, welche Bedingungen dabei an die Zielfunktion geknupft werden mussen.

Anschaulich geht der Algorithmus folgendermaßen vor: Am Anfang ist eine Startlosung

L = L(0) gegeben. In jeder Iteration wird nun ein Labelα fest gewahlt. Alle Komponenten

(Punkte) vonL, welche bereits mitα beschriftet sind, werden in der aktuellen Iteration nicht

geandert. Ziel der Iteration ist es, fur alle anderen Komponenten (Punkte) vonL folgende binare

Entscheidungsfrage zu losen:

Soll die aktuelle Beschriftung der Komponente geandert und aufα gesetzt werden ?

Dies fuhrt zu einer Erweiterung (Expansion) der Klasseα. Ein Beispiel fur die Auswirkungen

einer Iteration ist in Abbildung3.5dargestellt.

Grundlage fur die mathematische Formulierung bilden so genannte zulassige Schritte im

RaumSKdef= 1, . . . , Kn. Diese definieren eine UmgebungU(L) eines VektorL ∈ SK . In

jeder Iteration kann durchUbertragung auf das schon anschaulich beschriebene binare Problem

ein Minimum in einer Umgebung gefunden werden. Es ist moglich, dieses Verfahren als ei-

ne Art dynamische lokale Suche in einem Graphen zu betrachtet. Die Arbeiten [Vek99, KT05]

bezeichnen es direkt als Spezialfall derublichen lokalen Suche. Ausgehend von den direkten

Beschreibungen des Algorithmus in [BVZ99a, SZS*06] sei aber darauf hingewiesen, dass der

konkrete Ablauf nicht direkt dem Konzept der”Lokalen Suche“ entspricht. Dieser Unterschied

wird nach der Beschreibung des Algorithmus deutlich.

In [Vek99, BVZ99a] wurden zwei unterschiedliche Konzepte (α-Expansion undα, β-Swap)


fur zulassige Schritte definiert und getestet, von denen an dieser Stelle nur das empirisch beste

Konzept derα-Expansion vorgestellt werden soll:

Definition 3.66 Ein Schritt im RaumSK ist ein Paar(L1, L2) mit L1, L2 ∈ SK .

(L1, L2) ist ein zulassigerα-Erweiterungsschritt⇐⇒

∀i ∈ 1, . . . , n : (L2i = L1

i ) ∨ (L2i = α). (3.67)

Die Menge der durch diese zulassigen Schritte definierten VektorenL2 definieren eine Umgebung

Uα(L1).

Der bereits skizzierte Ablauf des Algorithmus kann jetzt exakt formuliert werden: In jeder

Iterationk erfolgt die Auswahl eines festen Labelα(k). Ausgehend von dieser Wahl wird das

folgende allgemeine Teilproblem gelost:

L(k+1) = argminL ∈ Uα(k)(L(k))

F (L). (3.68)

Durch die Wahl der Umgebung kann das Problem folgendermaßen als binares Problem be-

schrieben werden: Zunachst ist durch die aktuelle BeschriftungL(k) und die Wahl des Labels

α(k) die Zielfunktion in der passenden Umgebung nur noch von einem binaren VektorB abhangig.

Dieser kodiert die Information, ob ein Punkt seine Beschriftung beibehalt oder die Beschriftung

aufα gesetzt wird. Daher lasst sich fur die neue binare ZielfunktionEbink schreiben:

Ebink (B)

def= F (L(B)) (3.69)

mit

Li(B)def=

α(k) Bi = 1

L(k)i Bi = 0

. (3.70)

Nicht jeder binare VektorB kodiert hingegen einen zulassigen”Nachbarn“ vonL(k). Es gilt

die Einschrankung:∀i mit L(k)i = α(k) : Bi = 1. Alle bisherigenα-Beschriftungen werden

dadurch fixiert. Durch diese Festlegung ergibt sich folgendes binare Teilproblem:

L(k+1) = Γ (L(k), argminB∈0,1n

∀L(k)i =α(k):Bi=1

Ebink (B)). (Subα)


Die FunktionΓ dient dazu, die Information des binaren VektorsB zu”dekodieren“ und es

gilt

Γ (L(k), B)def= L(B) (3.71)

mit der Festlegung vonL(B) durch Gleichung (3.70).

Das in die Gleichung (Subα) eingebettete Optimierungsproblem ist ein bekanntes Optimie-

rungsproblem der Form (BinF ), welches unter den beschriebenen Anforderungen auf das Pro-

blem des minimalen Schnittes in einem Graphen reduziert werden kann. DieUbertragung die-

ser Anforderungen auf die ZielfunktionF werden im Abschnitt3.4.3naher untersucht. Weiter-

hin fuhrt die zusatzliche Nebenbedingung lediglich auf eine Minimierung einer Projektion von

Edef= Ebin

k :

argminB∈0,1n

∀i∈ω:Bi=1

E(B) = argminB∈0,1n−]ω

Eωproj(B) (3.72)

Die Indexmengeω umfasst alle fixierten Komponenten:ω = ω(k)def= i | L(k)

i = α(k). Der

fixierte Vektor der Projektion istBω ≡ 1.

Es gibt verschiedene Moglichkeiten die Funktionα(k) und damit die Wahl des fixierten La-

bels vorzunehmen. In den Arbeiten [Vek99, BVZ99b, BVZ01] wird vorgeschlagen, alle mogli-

chen Labels nacheinander durch eine Iteration abzuarbeiten. Solch ein Zyklus wird dann solange

wiederholt, bis eine weitere Minimierung des Funktionswertes vonF nicht mehr moglich ist. Die

Reihenfolge der Labels in einem Zyklus kann eine zu Beginn des Zyklus zufallig gewahlte Per-

mutation sein. In bisher bekannten Beschreibungen desα-Expansion-Algorithmus sind weitere

Details ausgespart. Der Algorithmus ist diesbezuglich noch einmal in der Pseudocodebeschrei-

bung3.1zusammengefasst und richtet sich nach der konkreten Implementierung von Olga Veks-

ler, auf die in der Arbeit [SZS*06] verwiesen wird. Der genaue Ablauf zeigt den Unterschied zur

”Lokalen Suche“: Die Nachbarschaft einer Beschriftung hangt explizit vom ausgewahlten fixier-

ten Labelα(k) ab. Sie ist daher vom genauen Weg der Suche abhangig. Dies steht im Kontrast

zu der fixierten Nachbarschaft bei derublichen”Lokalen Suche“.

3.4.2 Eigenschaften des Algorithmus

Die Terminierung des Algorithmus ist aus folgenden Grunden gesichert. Die ZielfunktionF ist

auf der MengeSK offensichtlich nach unten beschrankt, da die MengeSK endlich ist. Da in

jedem erfolgreichen Zyklus der Zielfunktionswert reduziert wird :F (L(k)) < Fold, konnen nur

endlich viele Zyklen durchlaufen werden. Unter ein paar zusatzlichen Annahmen ist es sogar


Pseudocode 3.1:α-Expansion-AlgorithmusWaehle eine Anfangsbeschriftung L(0)

k := 0Fold := ∞do

success := 0π = Zufaellige oder fest gewaehlte Permutation von 1, . . . , Kfor i := 1 . . . K do

α := π(i)

L(k+1) = Loesung des Unterproblems (Subα)k := k + 1

endif F (L(k)) < Fold then

success := 1Fold := F (L(k))

endwhile ( success and k < maxIterations )

moglich, die Terminierung inO(n) Zyklen zu beweisen [Vek99].

Der α-Expansion-Algorithmus erzeugt, wie bereits angesprochen, nicht notwendigerwei-

se ein globales Minimum. Der Algorithmus liefert hingegen immer ein Art lokales Minimum

bezuglich der moglichenα-Expansionsschritte. Eine wichtige Fragestellung in diesem Zusam-

menhang ist die”Entfernung“ des Resultates des Algorithmus vom globalen Minimum. Dies

mundet in der so genannten Approximationsgute (relative approximation):

Satz 3.73SeiL das globale Minimum vonF ∈ F2, L das Resultat desα-Expansion-Algorithmus

und o.B.d.A.F (L) ≥ 0. Dann gilt folgende Abschatzung:

F (L) ≤ F (L) ≤ 2

maxi,j

maxα 6=β

Ei,j(α, β)

minα 6=β

Ei,j(α, β)

F (L) (3.74)

Beweis zu 3.73: Siehe Veksler [Vek99] (Originalarbeit) oder Kleinberg und Tardos [KT05].

Korrolar 3.75 Sei L das globale Minimum vonF ∈ F2 mit F (L) ≥ 0 und L das Resultat

desα-Expansion-Algorithmus. Dann gilt fur das verallgemeinerte Potts-ModellEi,j(Li, Lj) =

Ei,j δ(Li 6= Lj) mit Ei,j ≥ 0:

F (L) ≤ F (L) ≤ 2F (L) (3.76)

Beweis zu 3.75: Es gilt:

maxα 6=β

Ei,j(α, β) = minα 6=β

Ei,j(α, β)

und nach Satz3.73folgt sofort Aussage (3.76).


3.4.3 Anforderungen an die Zielfunktion beiF ∈ F2

In Abschnitt3.3 wurden die Anforderungen an eine binare Funktion untersucht, so dass diese

mit einer Reduzierung auf das Problem des minimalen Schnittes optimiert werden kann. Im

Folgenden seien FunktionenF : SK → R ausF2 betrachtet:

F (L) =n∑

i=1

F i(Li) +∑i<j

i,j∈1,...,n

F i,j(Li, Lj)

Die in jeder Iteration desα-Expansion-Algorithmus auftretende Zielfunktion des binaren

Teilproblem (Subα) seiEdef= Eω

proj. Die Definition vonE induziert die folgende Darstellung der

Funktion mitL(B) nach Gleichung3.70:

E(B) =∑i∈ω

F i(α) +∑i/∈ω

F i(Li(B))+

+∑

i<j, i∈ω, j∈ω

F i,j(α, α) +∑

i<j, i/∈ω, j∈ω

F i,j(Li(B), α)+

+∑

i<j, i∈ω, j /∈ω

F i,j(α, Lj(B)) +∑

i<j, i/∈ω, j /∈ω

F i,j(Li(B), Lj(B)) (3.79)

Die FunktionE besitzt daher ebenfalls eineF2-Darstellung miti, j /∈ ω:

E(B) =∑

i

Ei(B) +∑i<j

Ei,j(Bi, Bj) + C

und

Ei,j(Bi, Bj) = F i,j(Li(B), Lj(B))

Ei(Bi) = F i(Li(B)) +n∑

j=i+1

F i,j(Li(B), α) +i−1∑j=1

F j,i(α, Li(B))

C =∑i∈ω

F i(α) +∑

i<j, i∈ω, j∈ω

F i,j(α, α).

C ist eine vonB unabhangige Konstante und kann daher bei der Optimierung vernachlassigt

werden. Um die Minimierung in einer Iteration durchzufuhren, muss die FunktionE regular


sein:

∀i, j ∈ ω : Ei,j(0, 0) + Ei,j(1, 1) ≤ Ei,j(0, 1) + Ei,j(1, 0). (3.81)

Diese Bedingungubertragt sich aufF in folgender Weise:

∀i, j mit L(k)i 6= α 6= L

(k)j :

F i,j(L(k)i , L

(k)j ) + F i,j(α, α) ≤ F i,j(L

(k)i , α) + F i,j(α, L

(k)j ) (3.82)

Damit wird aber nur die Regularitat in einer Iteration fur ein speziellesL(k) gefordert. Ein

notwendiges12 Kriterium fur die Regularitat in einer beliebigen Iteration ist daraufhin im folgen-

den Satz dargestellt.

Satz 3.83SeiF : SK → R die Zielfunktion des Problems(OptF ) undF ∈ F2. Wenn fur alle

FunktionenF i,j aus derF2-Darstellung vonF folgende Bedingung erfullt ist:

∀α, β, γ mit β 6= α 6= γ : F i,j(β, γ) + F i,j(α, α) ≤ F i,j(β, α) + F i,j(α, γ) (3.84)

dann lasst sich die FunktionF mit demα-Expansion-Algorithmus minimieren und es gelten

die in Abschnitt3.4.2angefuhrten Eigenschaften des gefundenen (lokalen) Optimums.

Beispiel 3.85Das verallgemeinerte Potts-Modell mitEi,j ≥ 0 (siehe Abschnitt2.3.4) genugt der

Bedingung(3.84):

F i,j(β, α) = F i,j(α, γ) = Ei,j (3.86)

F i,j(α, α) = 0 (3.87)

F i,j(β, γ) = Ei,j δ(β 6= γ). (3.88)

Daraus folgt unmittelbar:

Ei,j δ(β 6= γ) + 0 ≤ Ei,j + Ei,j (3.89)

3.4.4 Beziehung zur Schatzung von MRF-Zustanden

Die Beziehung der besprochenen Optimierungsprobleme zur Schatzung von MRF-Zustanden

(siehe Kapitel2) lasst sich ziemlich schnell erkennen. Die zu minimierende ZielfunktionE bei

12Dieses Kriterium kann nur als notwendig bezeichnet werden, daL(k) beliebig ist aber nicht zwangsweise jedeKomponente wahrend des Algorithmus jedes mogliche Label annehmen muss.


der MAP-Schatzung (siehe Gleichung (2.16), Abschnitt2.3.3) hat im allgemeinen Fall (Annah-

me A1’) die Form:

E(L) =∑


EIC(LC). (3.90)

Aus dieser Darstellung lasst sich erkennen, dassE zur FunktionsklasseFω(S) gehort. Bei der

4er-Nachbarschaft (siehe Abschnitt2.1) genugt daher eine Betrachtung vonF2-Funktionen mit

der ursprunglichen Definition der Regularitat 3.39:

E(L) =∑

i

Ei(Li) +∑

(i,j)∈N

Ei,j(Li, Lj) (3.91)

Die Anforderungen an die einzelnen SummandenEi,j ubertragen sich damit auf naturliche

Weise auf die CliquenpotentialeEIC

13.

Bei einemUbergang von der 4er-Nachbarschaft auf die 8er Nachbarschaft ist es bereits not-

wendigF4-Funktionen zu betrachten. Da diese in der Konstruktion des entsprechenden Graphen

unhandlich sowie die Anforderungen der Regularitat im Gegensatz zuF2-Funktionen nicht so

leicht nachzuprufen sind, ist esublich sich auf eine Approximation durchF2-Funktionen zu

beschranken.

13Zur Erinnerung sei an dieser Stelle angemerkt, dass die NotationEI die Abhangigkeit von der BeobachtungIausdruckt.

Kapitel 4

Anwendungen

Die allgemeine abstrakte Beschreibung von Graph-Cut-Methoden ermoglicht eine vielseitige

Anwendung in unterschiedlichen Gebieten der Bildverarbeitung. Die folgenden Abschnitte die-

nen der Beschreibung der Problemstellungen, welche im Kontext dieser Arbeit mit Graph-Cut

gelost werden konnten.

Die Beschreibung der”interaktiven Segmentierung“ in Abschnitt4.1 dient dazu, einen ent-

scheidenden Grundansatz bei der Modellierung vorzustellen, welcher spater bei der Kennzei-

chenlokalisierung4.2effektiv angewendet werden kann.

Anschließend werden Grundaspekte der Bewegungssegmentierung vorgestellt, welche zu der

Ebenensegmentierung mit Tiefeninformationen fuhren.

4.1 Interaktive Segmentierung

Im Folgenden soll das Prinzip der Teilfixierung bei der Anwendung von Graph-Cut-Methoden

vorgestellt werden. Der Begriff”Interaktive Segmentierung“ wird hier verwendet, da diese Art

von Segmentierung hauptsachlich bei der benutzerunterstutzten Segmentierung von medizini-

schen Bild- oder Voxeldaten zum Einsatz kommt. Es sei aber explizit darauf hingewiesen, dass

die Grundidee auch bei automatischen Segmentierungen (siehe Abschnitt4.2) anwendbar ist und

daher an dieser Stelle vorgestellt wird.

4.1.1 Aufgabenstellung

Ziel soll es sein, ein Bild in eine fest vorgegebene AnzahlK von Regionen zu unterteilen. Da-

bei muss eine Region nicht zwangslaufig nur eine Zusammenhangskomponente bilden. Im Ge-

45

46 KAPITEL 4. ANWENDUNGEN

gensatz zu der Segmentierung von allgemeinen Bildern ohne Zusatzinformationen in Gebiete,

wie etwa bei der Verwendung von Normalized-Cuts [GS06, SM00], ist bei dieser Aufgaben-

stellung zusatzlich eine Teilauswahl von Punkten allerK Regionen gegeben. Im Folgenden soll

die Formulierung”Teilfixierung“ verwendet werden. Dieser Unterschied ist das Analogon zur

Unterscheidung vonuberwachten und unuberwachten Lernverfahren.

4.1.2 Festlegung der unabhangigen Kosten einzelner Pixel

Eine Teilfixierung im Bild (n-dimensional)I ist eine FolgeΩ = PiKi=1 von paarweise dis-

junkten PunktemengenPi ⊂ Zn. Analog zu Abschnitt2.3.1soll wieder eine BeschriftungL des

Bildes I geschatzt werden. Ein paar Komponenten dieser Beschriftung sind bereits durch die

Teilfixierung festgelegt:xi ∈ Pk → Li = k.

Die WahrscheinlichkeitPr(Li = k|Ii) fur diese Punkte ist demnach1 fur xi ∈ Pk und0 fur

alle anderen moglichen Werte aus1, . . . , K. Ubertragen auf die dazugehorige ZielfunktionE

ergibt sich fur dieEi Terme mitxi ∈ Pk:

Ei(Li)def=

∞ Li 6= k

0 Li = k.(4.1)

Bei der Implementierung kann die fur die Optimierungaquivalente Variante mit

Ei(Li)def=

−H Li = k

0 Li 6= k.(4.2)

verwendet werden. Der WertH ist dabei ein praktisch genugend großer Wert. Eine andere

Moglichkeit ist es, denα-Expansion-Algorithmus so anzupassen, dass alle Knotenvi des Gra-

phen mitxi ∈ Pk mit den entsprechenden Terminals vereinigt1 werden.

4.1.3 Wahl der Cliquen-Potentiale 2. Ordnung

Entscheidend fur die Beschriftung der anderen Pixel ist die Festlegung der Cliquen Potentiale

2. Ordnung (TermeEi,j). Diese Funktionen bestimmen die Grenzen der Regionen und werden

daher oft alssmoothness costoderNachbarschaftsbewertungbezeichnet.

1Eine Vereinigung von Knotenv und Knotenw eines Graphen ist ein Knotenq mit N(q) = (N(v) ∪N(w)) \v, w.

4.1. INTERAKTIVE SEGMENTIERUNG 47

Bild 4.1: Veranschaulichung der Gleichung (4.4) mit unterschiedlichen Werten fur σ und

p(x, σ) = exp(− exp

(− x2

2σ2

))

An den Grenzen der Regionen einer Beschriftung sollen auch starke Kanten im BildI auf-

treten, daher seien die FunktionenEi,j analog zu [BFL06] wie folgt gewahlt:

Ei,j(Li, Lj)def= exp

(−(Ii − Ij)

2

2σ2

)1

‖xi − xj‖δ(Li 6= Lj). (4.3)

In diesem Zusammenhang ist es wichtig festzustellen, dass es keine theoretische Begrundung

fur die Verwendung dieser Normalverteilungsdichte gibt. Die Zielfunktion ist von ihrer theoreti-

schen Bedeutung immer der negative Logarithmus einer Dichte, daher ergibt sich fur die zugrun-

de liegende”Dichte“2 von (4.3):

Pr(Li = Li,Lj = Lj|I) = exp(−Ei,j(Li, Lj)). (4.4)

Aus der Abbildung4.1 ist ersichtlich, dass Kanten einer Starke großer3σ bevorzugt wer-

den. Die Arbeit [CZ05] verwendet eine Wahl der Nachbarschaftsbewertung analog zu (4.3) und

zeigte durch Experimente eine signifikante Verbesserung der Segmentierungsergebnisse im Ver-

gleich zu anderen Funktionstypen. Aufgrund der Spezifikation der einzelnen Bestandteile der

Energiefunktion ist der gesamte Algorithmus bereits beschrieben. Abbildung4.2 stellt anhand

der einzelnen Schritte desα-Expansion-Algorithmus ein Beispiel fur eine Segmentierung vor.

2Die Funktion bildet keine Dichte im mathematischen Sinne, da ihr uneigentliches Integral nicht beschrankt ist.


Bild 4.2: Bildreihenfolge von links nach rechts bzw. oben nach unten: (1) Originalbild, (2) Aus-wahl der Teilfixierung, (3)-(8) Die einzelnen Iterationen desα-Expansion-Algorithmus im erstenZyklus (Die nachsten Iterationen fuhren zu keiner weiteren Verbesserung des Zielfunktionswer-tes, daher bricht der Algorithmus ab).

4.2 Kennzeichenlokalisierung

4.2.1 Einfuhrung

Die moderne Verkehrssicherheitstechnik in Form von automatischen Geschwindigkeitsmesssy-

stemen ist ohne die automatische Detektion und Erkennung von KFZ-Nummernschildern in Bild-

aufnahmen undenkbar geworden. Ein so genannter Kennzeichenleser muss dabei viele Teilpro-

bleme losen: Detektion der Nummernschilder, Ausrichtung, Buchstabensegmentierung, Buch-

stabenerkennung, SyntaktischeUberprufung.

Die Ausrichtung der Nummernschilder kann dabei anhand der Ausrichtung des Nummern-

schild-Randes erfolgen. In einem dafur notwendigen ersten Schritt ist es moglich, die Hypothese

des Nummernschildes mittels anderer Bildverarbeitungsmethoden zu finden. Diese Hypothese

im EingabebildI sei im Folgenden mitxh bezeichnet.

4.2.2 Kennzeichenlokalisierung als binares Segmentierungsproblem

Die Segmentierung des Randes kann als ein binares Segmentierungsproblem aufgefasst werden.

Ziel ist es, das BildI in eine Kennzeichenregion1 (begrenzt durch den gesuchten Rand) und eine

Hintergrundregion0 aufzuteilen.

Die Große des Nummernschildes ist a priori nicht bekannt. Im Folgenden soll aber von einer

maximalen Breitewx und maximalen Hohewy ausgegangen werden.

4.2. KENNZEICHENLOKALISIERUNG 49

Bild 4.3: Ausgeschnittener Bildbereich um die gefundene Hypothese des Nummernschildes

Bild 4.4: Festlegung der fixierten Labels fur das optimale”Region Growing“ mit Graph-Cut:

(roter Bereich in der Mitte)Ei(1) = −∞, (gruner Bereich am Rand)Ei(0) = −∞

Die Idee der Kennzeichenlokalisierung istaquivalent zum Grundgedanken der interaktiven

Bildsegmentierung wie sie in Abschnitt4.1 vorgestellt wurde. Fur eine korrekte Beschreibung

des Algorithmus reicht es daher, eine Teilfixierung des Bildes anzugeben. Die Zielfunktion lasst

sich analog zu den Gleichungen (4.2) und (4.3) aufstellen.

In einem gewissen Bereich um die Hypothesexh wird eine Fixierung der Beschriftung der

Kennzeichenregion (Li = 1) vorgenommen:

P1def= x | |x1 − xh

1 | ≤ux

2∨ |x2 − xh

2 | ≤uy

2. (4.5)

Die Parameterux und uy sollten so gewahlt werden, dass die entstehende RegionP1 min-

destens einen Hintergrundpixel des Nummernschildes enthalt, auch wenn die Hypothese direkt

auf einem Zeichen des Nummernschildes liegt. Die Großeux ist somit indirekt abhangig von der

maximalen Breite eines Zeichens.

Ausgehend von der Angabe der maximalen Große eines Nummernschildes erfolgt die Fest-


Bild 4.5: Ergebnis der Segmentierung des Nummernschildes von Beispielbild4.3. Der rot-gestreifte Bereich markiert das gefundene Nummernschild.

legung, dass auf dem maximalen Rand alle Pixel dem Hintergrund angehoren:

P0def= x | |x1 − xh

1 | =wx

2∨ |x2 − xh

2 | =wy

2 (4.6)

Eine Veranschaulichung dieser Festlegungen ist in Abbildung4.4dargestellt. Da ausgehend

von einem Punkt eine optimale Kontur (im Sinne des Bildgradienten senkrecht zur Kontur) ge-

sucht wird, kann das Verfahren als”optimales Region-Growing“ bezeichnet werden.

4.3 Ebenendetektion

Die Detektion von Ebenen ist in vielen Anwendungen der 3D-Bildverarbeitung ein wichtiger

Teilschritt. Ziel ist es raumlich planare Teilstucke in einer Szene zu erkennen.

Eine Moglichkeit ist es, aus einer gegebenen Folge von Aufnahmen verfolgte Punktmerkma-

le so zu gruppieren, dass sie jeweils einer gemeinsamen Homographie unterliegen [KD07]. In

der Arbeit [KD07] wurde weiterhin gezeigt, dass aus dieser Gruppierung nur dann auf planare

Teilstucke geschlossen werden kann, wenn die Kamerabewegung eine Translation beinhaltet.

Neue Kameras mit Echtzeit-Tiefeninformationen [Lan00] ermoglichen es hingegen, einen

ganz anderen Zugang zu wahlen. Die Detektion planarer Teilstucke kann dadurch Standardver-

fahren verwenden, welche auf 3D-Punktewolken arbeiten [vH06, CZ01]. Eine Moglichkeit ist es

zum Beispiel, eine Art Region Growing durchzufuhren. Dabei wird, wenn der Abstand zur bisher

geschatzten Ebene einen gewissen Schwellwert unterschreitet, ein Punkt zur Region hinzugefugt.

Eine Verbesserung der Schatzung erfolgt daraufhin Schritt fur Schritt durch neue Punkte.

In den folgenden Abschnitten wird eine Verbesserung beider Ansatze vorgestellt. Zunachst

kommt ein beliebiges Verfahren der Ebenendetektion3 zur Anwendung, um eine Startschatzung

3Fur eine Beschreibung dieser Verfahren sei an dieser Stelle auf die Originalarbeiten [KD07, vH06, CZ01] oder

4.3. EBENENDETEKTION 51

zu erhalten. Diese Schatzung wird danach durch eine Graph-Cut-Segmentierung verbessert.

4.3.1 Problemstellung

SeiRπ die Menge der abgebildeten Punkte im BildI einer Ebeneπ im Raum. Die Anwendung

eines Verfahrens der Ebenendetektion [CZ01, KD07] liefert eine StartschatzungS der Menge

Rπ. Beim Verfahren von [KD07] kann zum Beispiel eine Auswahl von zufalligen Punkten in

der konvexen Hulle der Punktmerkmale verwendet werden. Um die Schatzung zu verbessern,

kann das zugrunde liegende Segmentierungsproblem wieder als binares Optimierungsproblem

formuliert werden. Die BeschriftungLi = 1 bedeutet dann, dass der Punktxi zuRπ gehort.

4.3.2 Ebenendetektion durch Bewegungssegmentierung

Um ausgehend von verfolgten Punktmerkmalen eine vollstandige Segmentierung einer Bildse-

quenz durchzufuhren, wurde in [XS05] Graph-Cut verwendet. Der Begriff”vollstandig“ bezieht

sich auf die Gruppierung der Pixel: Jeder Pixel in jedem Bild wird genau einer Komponente

zugeordnet, die wahrend der Sequenz eine gemeinsame Bewegung durchfuhrt.

Ein Hauptbestandteil der Arbeit [XS05] ist die Erweiterung von verfolgten Punktmerkmale

mit Graph-Cut. Dieser Ansatz kann effizient fur die Ebenensegmentierung verwendet werden.

Gegeben seien die StartschatzungS der Ebenenpunkte sowie die bereits ermittelte Bewe-

gung der Ebene als HomographieH vom aktuellen BildIt zu einem fruheren Bild der Sequenz

It−ν . H ist eine 3x3 Matrix, die homogene Bildkoordinaten ineinander abbildet. Im Folgenden

sei die SchreibweiseH(x) verwendet, um die resultierende nicht-lineare Abbildung direkt in

Bildkoordinaten auszudrucken.

Ausgehend von diesen Informationen lasst sich nun das Differenzbild∆ berechnen:

∆idef= |It(xi)− It−ν(H(xi))|. (4.7)

Unter der Annahme einer perfekten Abbildung verschwindet∆ auf dem gesuchten Ebe-

nenstuck sowie in homogenen Gebieten. Bei realen Aufnahmen ist diese Annahme naturlich

unhaltbar und eine Optimierung mit Graph-Cut erscheint sinnvoll. Dadurch kann ein kompaktes

Gebiet ermittelt werden, welches gewisse Bedingung am Rand und im Inneren erfullen muss.

Diese Bedingungen werden im Folgenden durch die Bewertung einzelner PixelEi und die

auf die Zusammenfassung in [KRD07] verwiesen.


Bewertung der ObjektgrenzeEi,j ausgedruckt:

F (L) =n∑

i=1

Ei(Li) +∑i,j∈N

Ei,j δ(Li 6= Lj). (4.8)

Wieder dient das verallgemeinerte Potts-Modell dazu, die Bewertung der Objektgrenze zu

modellieren. In [XS05] werden folgende Bedingungen an das Innere der Ebenenregion gestellt:

1. geringe Werte von∆i

2. beschrankter”Abstand“ zur Anfangsschatzung.

Die zweite Bedingung kann durch die Verwendung einer sogenannten Level-Set-Darstellung4

erreicht werden. Fur die AnfangsschatzungS lasst sich dazu ein BildmaskeM erstellen:

Midef=

1 xi ∈ S

0 sonst.(4.9)

Die Level-Set-Darstellungϑ ergibt sich anschließend aus einer zweidimensionalen Gaußfil-

terung des BildesM :

ϑdef= Gσ ∗M. (4.10)

Gσ ist in diesem Fall ein uniformer zweidimensionaler Gaußkern mit”großer“ Varianzσ. Das

Bild ϑ fuhrt zu einer Glattung der Grenzen vonM . Die Werte vonϑ fallen monoton orthogonal

zu der Objektgrenze inM . Dies wird in der Kostenfunktion dazu verwendet, einen plausiblen

Abstand zur Anfangsschatzung zu definieren. Abbildung4.6zeigt ein Beispiel fur die Funktion

ϑ. An den dort abgebildeten Hohenlinien ist die Grundform der Anfangsschatzung erkennbar.

Geringe Werte von∆i mit kleinen Kosten zu belegen, kann durch eine speziell gewahlte

Funktions erzielt werden. Analog zu [XS05] ergibt sich insgesamt folgende Kostenfunktion:

Eihomography(l)

def=

s(∆i, αh, βh) l = 1

(1− s(∆i, αh, βh))ϑi l = 0(4.11)

4Der Begriff Level-Set bezeichnet eigentlich Hohenlinien, bzw. eine Menge von Punkte mit gleicherz-Koordinate.


Bild 4.6: Beispiel fur die Level-Set-Darstellungϑ: Stetig fortgesetzte Oberflache der Funktionmit Hohenlinien.

mit der durchα undβ parametrisierten Sigmoid-Funktion5 s:

s(∆i, αh, βh)def=

1

2+

tan−1(αh(∆i − βh))

π. (4.12)

Die Funktions besitzt eine Art Phasenubergang an der Stelleβh, dessen”Lange“ bzw. Glatt-

heit durchαh beeinflusst wird. Es ergeben sich daher Kosten von≈ 1 fur Werte von∆i wesent-

lich großer alsβh und Kosten von0 fur Werte wesentlich kleiner alsβh. Beispiele fur den Verlauf

dieser Funktion sind in Abbildung4.7dargestellt.

Legt man die Annahme zugrunde, dass an der Grenze der Projektion der Ebene eine Kante

im Bild auftritt, kann diese mit niedrigen Kosten belegt werden. Diese Idee wird auch in der

Arbeit [XS05] verwendet. Die dort vorgeschlagene Kostenfunktion ist stuckweise definiert:

Ei,jintensity

def=

γ |I(xi)− I(xj)| < κe

1.0 sonst.(4.13)

Mit γ > 1 erhalten Objektgrenzen mit einem Gradient kleiner einem gewissen Schwellwert

κe hohere Kosten. Die komplette Zielfunktion hat nach der zusatzlichen Einfuhrung eines Ge-

5Der Begriff der Sigmoid-Funktion ist nicht eindeutig einer Funktion zugeordnet, sondern beschreibt immer einElement der Klasse aller sigmoidalen Funktionen.


Bild 4.7: Beispiele fur den Funktionsverlauf der sigmoidalen Funktions mit der Arkustangens-Darstellung (4.12)

Bild 4.8: Erweiterung einer Ebene mit Graph-Cut und Homographie-Informationen: (innereblaue Kontur) Ebene vor der Graph-Cut-Segmentierung (außere blaue Kontur) Ebene nach derErweiterung mit Graph-Cut

wichtungsparametersλ die folgende Form:

F (L) =n∑

i=1

Ei(Li) + λ∑

(i,j)∈N

Ei,j δ(Li 6= Lj) (4.14)

Ein Beispiel fur die Anwendung von Graph-Cut bei der Ebenendetektion mit Homographie-

Informationen ist in Abbildung4.8dargestellt.


4.3.3 Ebenendetektion mit zusatzlicher Tiefeninformation

Filterung der Tiefeninformation

Eine Filterung der Eingabedaten ist bei jeder Anwendung der Bildverarbeitung ein wichtiger

Schritt. Tiefeninformationen aktueller Kameras, wie etwa der PMD 19k (Abbildung5.1), sind

oft stark verrauscht und liefern viele Ausreißer in den Tiefenwerten.

Um diese Ausgangssituation zu verbessern, wurden zwei Filterungen durchgefuhrt. Die Ka-

mera liefert Kamera zusatzlich die Amplitudenwerte der Infrarot-Wellen in einem Sensor. Eine

geringe Amplitude lasst auf eine geringe Abstrahlung der aktiven Beleuchtung in der Szene

schließen. An diesen Stellen ist eine robuste Tiefenschatzung schwierig [Lan00] und die Wahr-

scheinlichkeit eines Ausreißers im Tiefenbild hoch. Die erste Filterung loscht daher die Tiefen-

information in Pixeln, bei denen der Amplitudenwert unter einem gewissen Schwellwert (z.B.

2.0) fallt. Anschließend erfolgt eine zweite Filterung mit einem 3x3 Median-Filter.

Verwendung der Tiefeninformation

Durch die Tiefeninformationen der Kamera (Abbildung5.1) und deren vorher bestimmte int-

rinsische Kameraparameter ist es moglich, fur jeden Punktx des Bildes den Punktx(3D) im

Raum relativ zum Kamerazentrum zu bestimmen. In Abschnitt4.3.2wurde als Maß fur die Zu-

gehorigkeit einzelner Pixel zur Ebeneπ ein Differenzbild berechnet. Ausgehend von den bereits

ermittelten 3D-Punkten lasst sich ein anderes Maß definieren, welches die exakte mathematische

Zugehorigkeit zur Ebene im Raum betrachtet.

Zunachst ist eine Bestimmung der Ebenenparameter notwendig. Unter Verwendung der Punk-

teS lasst sich eine allgemeine Schatzung im Sinne von M-Estimation [Hub80] anwenden:

n = argminn

∑x∈S

ρ(nT x(3D) − 1). (4.15)

Dabei istρ eine geeignete robuste Fehlerfunktion wie etwa die Huber-Funktion [Hub80]. Die

Losung des Optimierungsproblems (4.15) fuhrt auf eine iterative gewichtete Kleinste-Quadrate

Schatzung (IRLS). Es ist relativ leicht zu sehen, dass bei der Schatzung keine Ebene ermit-

telt werden kann, die durch den Ursprung (Kamerazentrum) verlauft. Diese mathematische Ein-

schrankung spielt in der Praxis keine Rolle, da jede Ebene, die das Kamerazentrum schneidet,

nur eine Gerade in der Bildebene bildet.

Ein geeignetes Maß fur die Zugehorigkeit eines Punktes zur Ebene lasst sich durch den Ab-


stand zur geschatzten Ebene definieren:

∆idef=|nT x(3D)

i − 1|‖n‖

. (4.16)

Dieser Abstand liefert die entscheidende Information bei der Aufstellung der passenden Ener-

giefunktionen.

Definition der Energiefunktionen

Bei der Pixelbewertung (Cliquen-Potentiale 1. Ordnung) ist es notwendig, folgende Sonderbe-

handlungen vorzunehmen:

1. Teilfixierung des Bildrandes auf die Hintergrundbeschriftung

2. Stellen an denen keine Tiefeninformationen verfugbar sind, konnen nur durch die Infor-

mationen der Nachbarn ( KostenEi,j ) beschriftet werden.

Die Bildrandbehandlung ist ein nicht zu unterschatzendes Problem bei der Graph-Cut-Segmentierung:

Fur Objektgrenzen am Bildrand entstehen im Gegensatz zu Grenzen im Bild keine Kosten. Dies

kann oft zu einer falschen Segmentierung fuhren. Die Annahme von Hintergrundpixeln am Rand

behebt dieses Problem.

Pixel ohne Tiefeninformationen entstehen durch die angewendeten Filteroperationen aus Ab-

schnitt4.3.3. Eine mathematische Beschreibung dieser Sonderfalle als Energiefunktion ist die

Folgende:

Eiplane(Li)

def=

0 keine Tiefeninformation an Positionxi verfugbar

−∞ Li = 0 ∧ xi liegt am Bildrand

Eiplane(Li) sonst.

(4.17)

Analog zu der Bewertung des Differenzbildes in Abschnitt4.3.2lasst sich der restliche Teil

der Funktion definieren:

Eiplane(Li)

def=

s(∆i, αp, βp) Li = 1

1− s(∆i, αp, βp) Li = 0.(4.18)

Die Bewertung von Objektgrenzen kann auf zwei verschiedene Arten durchgefuhrt werden.

Eine Moglichkeit ist es, Kanten im Distanzbild∆ zu betrachten. Wird zum Beispiel eine Ebene


Bild 4.9: Beispiel fur eine Ebenensegmentierung: (Links) Startebene, (Mitte) Verfeinerung mitGraph-Cut und reiner Tiefeninformation, (Rechts) Verfeinerung mit Graph-Cut unter Verwen-dung von Tiefen- und Grauwertinformationen

vor einem weiter entfernten Hintergrund segmentiert, so ist klar ersichtlich, dass sich in∆ an den

Objektgrenzen eine klare Kante abzeichnet. Die Angabe der Kosten fur die Objektgrenze erfolgt

dabei wieder analog zu Abschnitt4.3.2mit einer stuckweise definierten Funktion:

Ei,jplane

def=

γ |∆i −∆j| < κp

1.0 sonst.(4.19)

Insgesamt ergibt sich wieder folgende Zielfunktion fur das Segmentierungsproblems:

F depth(L) =∑

i

Eiplane(Li) + λ

∑(i,j)∈N

Ei,jplane δ(Li 6= Lj). (4.20)

Fusion mit Grauwertinformationen

Zusatzlich zur Tiefe liefert die Kamera ein Infrarot-Bild der Szene. Die Verwendung der bis-

her beschriebenen Zielfunktion (4.20) fuhrt hingegen zu einer Segmentierung, die lediglich auf

den Tiefeninformationen basiert. Aus diesem Grund ist es Ziel des folgenden Abschnittes, eine

Fusion der Informationen aus Infrarot-Bild, im Folgenden allgemein als Grauwertinformation

bezeichnet, mit den Tiefeninformationen wahrend der Segmentierung zu erreichen.

Ein Ansatz ist es, die Bewertung der Objektgrenze im Infrarot-BildI anstatt im Distanzbild∆

vorzunehmen. Dabei kann wieder die Festlegung (4.13) aus Abschnitt4.3.2verwendet werden.

Die Kombination aus den beiden unterschiedlichen Kostenfunktionen ergibt daraufhin die fur

die Fusion verwendete ZielfunktionF fusion:

F fusion(L) =∑

i

Eiplane(Li) + λ

∑(i,j)∈N

Ei,jintensity δ(Li 6= Lj). (4.21)


Abbildung 4.9 zeigt auf anschauliche Weise wie diese Fusion zu besseren Ergebnissen bei

der Segmentierung fuhren kann. Bisherige Ebenen-Segmentierungsalgorithmen basierten entwe-

der auf reinen 3D-Informationen oder auf Grauwertinformationen. Durch die Kombination von

einzelnen Optimierungskriterien in einer Zielfunktion ist es moglich geworden, beide Informati-

onsquellen in einem Prozess effektiv zu nutzen.

Die Verwendung der Homographie-Information als dritte Informationsquelle ist leider bei

der heutigen gangigen Auflosung der Kameras von 19k Bildpunkten noch nicht nutzbar. Die

Schatzung der Homographie und die Bestimmung eines Differenzbildes ist leider nur bei große-

ren Auflosungen robust moglich.

An dieser Stelle sei weiterhin angemerkt, dass im ermittelten Infrarot-Bild der verwendeten

PMD-Kamera oft Phasensprunge auftreten konnen, die abhangig von den Oberflachen der Ob-

jekte in der Szene sind. Eine Modellierung dieser Effekte, wie sie in”normalen“ Grauwertbilder

nicht auftreten, wurde bisher nicht vorgenommen.

Kapitel 5

Experimente

Das folgende Kapitel soll die Moglichkeiten von Graph-Cut-Verfahren durch Experimente auf-

zeigen. Dabei werden unterschiedliche Ansatze gegenuber gestellt und die Auswirkungen der

Parameter aufgezeigt. Im Vordergrund bei der Auswahl der Experimente stand die Verwendung

von realen Bildmaterial.

So wurde fur die Kennzeichenlokalisierung das in Abschnitt4.2 beschriebene Verfahren in

das GesamtsystemlprJ des an der Universitat Jena entwickelten Kennzeichenlesers zusatzlich

integriert. Die Auswertung erfolgte anschließend auf der Grundlage der Gesamterkennungsrate.

Bei der Ebenendetektion wurden Ground-Truth Informationen fur verschiedene Szenen er-

stellt, welche eine quantitative Auswertung der in Abschnitt4.3vorgestellten Algorithmen ermoglich-

ten.

5.1 Kennzeichenlokalisierung

Im Rahmen einer Kooperation mit der FirmaROBOT Visual Systems GmbHentwickelte der

Lehrstuhl fur digitale Bildverarbeitung an der Universitat Jena den KennzeichenleserlprJ. Dieses

bereits existierende Gesamtsystem wurde um zusatzliche Komponenten der Graph-Cut-Optimierung

erweitert.

5.1.1 Experiment

Die Auswertung erfolgte auf unterschiedlichen Testreihen von Straßenszenen. Die Charakteristik

der einzelnen Sequenzen ist in Tabelle5.1aufgelistet.

Die Lokalisierung von Nummernschildrandern wie in Abschnitt4.2vorgestellt, wird fur jede

59

60 KAPITEL 5. EXPERIMENTE

Bezeichnung Charakteristik ≈Zeichenhohe ]BilderNLSR520-200509 90% niederlandische Nummernschilder,

viele Tagesaufnahmen12 6079

NLSR520-200510 90% niederlandische Nummernschilder,viele Tagesaufnahmen

12 4882

NLTest8288 nur niederlandische Nummernschilder 16 8287Elzerberg22282 95% deutsche Nummernschilder, Nacht-

aufnahmen24 4054

Tabelle 5.1: Verwendete Testsequenzen bei der Auswertung der Kennzeichenlokalisierung. Mit]Bilder ist die Anzahl der Bilder in der Sequenz bezeichnet, welche mindestens ein Nummern-schild enthalten.

Sequenz Ergebnis von lprJ ohne GC mit GC DifferenzNLSR520-200509 85.11% 85.66% +0.55%NLSR520-200510 69.44% 69.83% +0.39%NLTest8288 87.53% 87.69% +0.16%Elzerberg22282 45.34% 45.44% +0.10%

Tabelle 5.2: Ergebnisse der Kennzeichenlokalisierung mit/ohne Graph-Cut-Erweiterung (σ =3, ux = 21, uy = 11). Die Ergebnisse basieren auf der Erweiterung der Basis-Version von lprJvom 5.6.2007.

Nummernschild-Hypothese aufgerufen, falls alle bisher inlprJ integrierten Verfahren fehlschla-

gen. In Tabelle5.2sind die Gesamterkennungsraten mit und ohne Erweiterung aufgelistet.

Die zusatzliche Verwendung des Graph-Cut-Ansatzes bewirkt zwangslaufig eine langere Lauf-

zeit der Gesamterkennung. Aus diesem Grund wurde zusatzlich zu der Erkennungsrate auch

die durchschnittliche Laufzeit untersucht. Die Ergebnisse sind in Tabelle5.3 festgehalten. Der

Zeitmessung startet nach dem Einlesen des Bildes in den Hauptspeicher und endet mit dessen

Freigabe.

Die Festlegung der Energiefunktionen aus Abschnitt4.2 ist von verschiedenen Parameter

Sequenz Durchschn. Laufzeit ohne GC mit GC DifferenzNLSR520-200509 7.19s 7.60s +0.41sNLSR520-200510 6.73s 7.24s +0.51sNLTest8288 1.81s 1.93s +0.12sElzerberg22282 3.88s 4.21s +0.33s

Tabelle 5.3: Durchschnittliche Laufzeit fur die komplette Verarbeitung eines Bildes. Parameter-belegung wie in Tabelle5.2.

5.1. KENNZEICHENLOKALISIERUNG 61

Parameterσ Ergebnis von lprJ mit Graph-Cut1.0 85.54%2.0 85.56%3.0 85.66%4.0 85.66%5.0 85.59%6.0 85.51%

Tabelle 5.4: Auswertung des Parametersσ (Bewertung der Objektgrenzen) bei der Kennzeichen-lokalisierung anhand der Sequenz NLSR520-200509 (ux = 21, uy = 11)

Parameterux Ergebnis von lprJ mit Graph-Cut15 85.51%17 85.54%19 85.54%20 85.54%21 85.54%23 85.52%25 85.52%

Tabelle 5.5: Auswertung des Parametersux (Große der fixierten Region) bei der Kennzeichenlo-kalisierung anhand der Sequenz NLSR520-200509 (σ = 1, uy = 11)

abhangig. Die Untersuchung der Auswirkung dieser Parameter wurde ebenfalls anhand der Ge-

samterkennungsrate durchgefuhrt.

Der Parameterσ (Tabelle5.4) steuert den Einfluß der Bewertung der Objektgrenze. Durch

ux (Tabelle5.5) wird hingegen die Große der inneren fixierten Region festgelegt.

5.1.2 Auswertung

Durch die Kennzeichenlokalisierung mit Graph-Cut-Methoden konnte eine Verbesserung der

Gesamterkennungsrate (siehe Tabelle5.2) des Kennzeichenlesers erzielt werden. Die verwende-

ten Testsequenzen beinhalten eine Vielzahl von herausfordernden Problemstellungen (Schatten,

Buchstabensegmentierung mit Kontextinformation, Detektion), welche nur durch eine Vielzahl

von Algorithmen und Ansatzen losbar sind. Eine Verbesserung von durchschnittlich0.3% ist

daher in diesen Bereichen der Erkennungsrate ein wichtiger Schritt.

Die Auswertung der Laufzeit in Tabelle5.3 zeigt, dass die Verwendung des Graph-Cut-

Ansatzes eine Verlangerung der Laufzeit um durchschnittlich340 msec bewirkt. Diese zusatz-


Bild 5.1: Verwendete Kamera fur Echtzeit-Tiefeninformationen: PMD Kamera 19k

liche Zeit ist im Verhaltnis zur Gesamtzeit der Erkennung vernachlassigbar. Dennoch ist es

abhangig vom Anwendungsgebiet, ob eine leichte Verbesserung der Gesamterkennung durch

eine solche Erhohung der Laufzeit sinnvoll ist.

Die Auswertung der Parameter in den Tabellen5.4und5.5zeigt außerdem, dass deren Wert

den Erkennungsprozess nicht signifikant beeinflusst. Eine rein heuristische Festlegung vonσ und

ux ist demnach zulassig.

5.2 Ebenendetektion

5.2.1 Experimentaufbau

Als Kamera mit Echtzeit-Tiefeninformation wurde die PMD 19k (Abbildung5.1) mit einer Auflosung

von 160x120 Bildpunkten verwendet.

Die quantitative Auswertung wurde anhand von drei Bildsequenzen durchgefuhrt. Die dabei

verwendete Szene stellt eine Art raumliches Kalibriermuster dar, welches gute Punktmerkma-

le fur die Verfolgung liefert. Fur die Sequenzen wurden Ground-Truth Informationen erstellt.

Diese Ground-Truth Informationen beinhalteten die Anzahl der ebenen Teilstucke im Bild so-

wie zugehorige Bildpunkte. Die Generierung dieser Informationen erfolgte ausgehend von einer

manuellen Startauswahl mit Hilfe der Ebenenverfolgung und zusatzlicher manueller Korrekturen

innerhalb der Sequenz.

Der Fehler bzw. Abstand zwischen zwei ebenen Teilstucken (Regionen) wurde anhand des

folgenden Verhaltnisses berechnet:

e(A, B) =](A \B) + ](B \ A)

]A + ]B. (5.1)


Bild 5.2: Versuchsaufbau fur Beispiel5.5

Dieses Fehlermaß ist0 genau dann, wenn die RegionenA undB identisch sind und1 falls

es sich um disjunkte Mengen handelt. Der Zahler wird auch oft als symmetrische Differenz

von A mit B bezeichnet. In jedem Bild der Sequenz mussen mehrere Ground-Truth Regionen

und geschatzte Regionen miteinander verglichen werden. Da die Zuordnung zueinander nicht

gegeben ist, erfolgt die Bestimmung des minimalen Fehlerse zwischen zwei Regionen1:

e = minGround-Truth RegionA,

Berechnete RegionB

e(A, B). (5.2)

Dadurch ist es moglich, fur ein Bild mit einzigen Wert eine quantitative Aussage bezuglich

der Genauigkeit der Segmentierung zu erhalten. Fur jede Sequenz konnten daraufhin Durch-

schnittswerte vone gebildet werden. Die ermittelten Werte sind in Tabelle5.6 dargestellt. Die

Bewegung der Kamera in den verwendeten Sequenzen beinhaltet zu jedem Zeitpunkt eine Trans-

lation. Daher wurde der in der Arbeit [KD07] vorgestellte Translations-Test nicht benotigt. Ver-

wendete Modellparameter sind in TabelleB.2 des AbschnittesB.3 aufgelistet.

Abbildung 5.3 zeigt beispielhaft den Fehlere bei jedem erfolgreichen Detektionsschritt in

der Sequenzseq1 . Aus Grunden derUbersichtlichkeit wurden nur die auf [KD07] basierenden

Verfahren in der Abbildung verglichen. Das Verfahren von [KD07] kann nicht in jedem Bild der

Sequenz eine Gruppe von Punktmerkmale finden, welche der gleichen Homographie unterliegen.

Daher erfolgte nur an den in Abbildung5.3markierten Stellen eine Detektion.

Eine ahnliche Darstellung der Resultate fur die Ebenendetektion auf der Grundlage von

1Analog wurde auch die Auswertung der Kennzeichenerkennung beilprJ durchgefuhrt. Der dort verwendeteAbstand ist die Levenshtein-Distanz zwischen den Kennzeichen-Strings.


Bild 5.3: Beispielhafte Darstellung des Fehlerse anhand der Szeneseq1 fur die auf [KD07]basierenden Verfahren.

Bild 5.4: Beispielhafte Darstellung des Fehlerse anhand der Szeneseq1 fur die auf Region-Growing basierenden Verfahren.


Bild 5.5: Beispiel fur eine Ebenensegmentierung: (Links) Startebene, (Mitte) Verfeinerung mitGraph-Cut und reiner Tiefeninformation, (Rechts) Verfeinerung mit Graph-Cut unter Verwen-dung von Tiefen- und Grauwertinformationen

Region-Growing [KRD07] l asst sich Abbildung5.4entnehmen. Das Startverfahren benotigt nur

die Information eines einzelnen Bildes und kann daher die Detektion von planaren Teilstucken

in jedem Bild der Sequenz vornehmen.

Bei der Anwendung des Verfahrens in realen Aufnahmen treten oft Probleme mit der Punkt-

verfolgung auf. Dies liegt in der niedrigen Auflosung des Infrarot-Bildes begrundet, welches die

zusatzliche Schwierigkeit von Phasensprungen aufweist. Eine qualitative Auswertung von realen

Sequenzen wurde daher immer mit dem Region-Growing Varianten durchgefuhrt. Abbildung5.5

zeigt ein Beispiel solch einer Szene. In AbbildungB.3 des Anhangs befindet sich eine, mit einer

anderen Kamera aufgenommene, Darstellung.

5.2.2 Auswertung

Die Entwicklung der Verfahren fur die Ebenensegmentierung basierten auf zwei Thesen, welche

im Folgenden anhand der Daten aus den Experimenten ausgewertet werden.

Die erste These ist, dass die Verfeinerung der bereits gefundenen ebenen Teilstucke durch

eine Segmentierung mit Graph-Cut zu einer Verbesserung der Ebenendetektion fuhrt. Die er-

mittelten Werte des Fehlerse in Tabelle5.6 bestatigen diese Vermutung. Der durchschnittliche

Fehler bei den zwei Varianten der Graph-Cut-Segmentierung liegt signifikant unterhalb des Feh-

Verfahren seq1 seq2 seq3[KD07] + Graph Cut mitF fusion 0.153 0.244 0.214[KD07] + Graph Cut mitF depth 0.184 0.252 0.217[KD07] 0.462 0.345 0.260Region Growing + Graph Cut mitF fusion 0.178 0.239 0.202Region Growing + Graph Cut mitF depth 0.213 0.249 0.205Region Growing 0.556 0.476 0.459

Tabelle 5.6: Durchschnittswerte vone fur verschiedene Szenen und die vorgestellten Verfahren.


lers des ursprunglichen Verfahrens. Sowohl beim Region-Growing in den reinen 3D-Daten als

auch bei der Detektion von planaren Teilstucke nach [KD07] konnte daher durch einen Optimie-

rungsschritt mit Graph-Cut die Segmentierung verbessert werden.

Die Verwendung von Informationen aus dem Infrarot-Bild wurde motiviert durch eine zwei-

te These: Die Fusion von Tiefeninformation und Grauwertinformation kann zu einer weiteren

Verbesserung der Segmentierung fuhren. Auch diese These wird durch Tabelle5.6bestatigt. Der

Fehler beim Verfahren, welches die Fusion verwendet, ist bei allen 3 Sequenzen und beiden

Ansatzen geringer als bei der Verwendung reiner Tiefeninformation.

Beide Aussagen lassen sich ebenfalls in den Abbildungen5.3 und 5.4 erkennen. Die Kur-

ven der Graph-Cut-Ansatze liegen weit unterhalb der Verfahren, welche die Startlosung liefern.

Durch die Fusion kann daraufhin eine zweite Verbesserung erzielt werden.

Kapitel 6

Ausblick

Die Moglichkeiten der allgemeinen Erweiterung der vorgestellten Verfahren konzentrieren sich

auf die drei Kernbereiche: Modellerweiterungen, Theorie, Algorithmik. Weiterhin lassen sich

naturlich auch Verbesserungsansatze bei den im Rahmen dieser Arbeit vorgestellten Anwendun-

gen erkennen.

6.1 Allgemeine Ansatze fur die weitere Forschung

Ausgangspunkt fur die in dieser Arbeit verwendeten Modelle war immer das verallgemeiner-

te Potts-Modell. Dies lag vor allem an der Regularitatsforderung, die kaum eine andere Wahl

(siehe Abschnitt3.3.2, Bemerkung3.47) ermoglicht. Grundlegend stellt sich aber die Frage, ob

es nicht durch die Verallgemeinerung von [FD05] moglich ist, komplexere Modelle zu verwen-

den. Dabei wird es zwangslaufig notig sein, die richtige Balance zwischen der Gute des Modells

und der Komplexitat der entstehenden Graphen zu finden. Schon eine Verwendung von Cliquen-

Potentialen 3. Ordnung erzwingt die Einfuhrung zusatzlicher Knoten und Kanten.

Bisherige theoretische Untersuchung von Graph-Cut-Verfahren beschrankten sich oft auf die

Charakterisierung von graph-darstellbaren1 Funktionen. In der Arbeit [Vek00] wurden hinge-

gen”topologische“ Eigenschaften von Segmentierungsergebnissen untersucht, welche durch die

Anwendung von Graph-Cut-Verfahren entstehen. Eine Fortfuhrung dieser Untersuchungen fur

allgemeinere Modelle konnte generell zu theoretischen Richtlinien fuhren, welche die Entwick-

lung von geeigneten Zielfunktionen bei vielen anderen Anwendungen unterstutzen konnten. In

vielen Arbeiten wurden bereits verwendete Ansatze aus fruheren Arbeitenubernommen, ohne

1Graph-darstellbare Funktionen sind Zielfunktionen von Optimierungsproblemen, welche auf das Min-Cut-Problem abgebildet werden konnen (siehe Abschnitt3.3.2).

67

68 KAPITEL 6. AUSBLICK

die Moglichkeiten der Weiterentwicklung und Spezialisierung auf das aktuelle Problem voll aus-

zuschopfen.

Ein ahnliches Problem sind die vielen Parameter der Zielfunktion, welche nur durch empi-

risch ermittelte Richtwerte festgelegt werden. Die Arbeit [CG06] bietet an dieser Stelle erste

Ansatze, um Modelle bzw. Zielfunktionen anzulernen. Dadurch ware es moglich, eine Vielzahl

von Parametern automatisch zu bestimmen und sich von bisher gewahlten Heuristiken zu losen.

6.2 Verbesserung der Kennzeichenerkennung durch Graph-

Cut-Verfahren

Die Verwendung von diskreten Optimierungsproblemen und deren Losung in Form von Graph-

Cut-Verfahren ist in vielen Teilschritten der Kennzeichenerkennung denkbar. Im Rahmen dieser

Arbeit konnte ein weiteres Verfahren zur Kennzeichenlokalisierung entwickelt werden.

Welche Moglichkeiten sich bei der Segmentierung mit Graph-Cut-Methoden im Bereich der

Buchstabensegmentierung in einem gefundenen Kennzeichen ergeben, bleibt weiterhin offen.

Eine gezielte Modellierung dieser Anwendung, welche bezuglich der resultierenden Ergebnis-

se etablierter Standardverfahren entscheidende Vorteile aufweisen sollte,ubersteigt bislang die

theoretischen Moglichkeiten. Effizient losbare diskrete Optimierungsprobleme, welche komple-

xe Kontureigenschaften der Objektgrenze einfließen lassen, wurden eine Brucke schlagen zur

bisher weitaus praktikableren kontinuierlichen Optimierung [CKS03].

Ein weiterer moglicher Ansatz ware, das Problem der Trennung von Buchstabenkonturen mit

Graph-Cut zu losen. Dies ist ein wichtiger Nachbearbeitungsschritt, um Fehler bei der Kontursu-

che zu beheben. Die aktuelle Implementierung inlprJ verwendet horizontale Projektionen, um

eine geeignete Stelle zu finden.

6.3 Erweiterung der Ebenendetektion mit Graph-Cut

Die vorgestellte Verfeinerung der Ebenendetektion verwendet ein binares Optimierungsproblem.

Eine Erweiterung konnte die Verfeinerung mehrerer planarer Teilstucke durch denα-Expansion-

Algorithmus in einer Optimierung durchfuhren. Das noch vorhandene Problem vonuberlappen-

den Teilstucken ware damit gelost. Zusatzlich ware es in diesem Kontext sinnvoll, eine passende

Methode fur die Vereinigung von mehreren planaren Teilstucken als Teilschritt der Detektion zu

integrieren.

Kapitel 7

Zusammenfassung

Ziel der vorliegenden Arbeit war es, die Moglichkeiten von Graph-Cut-Methoden in der Bildver-

arbeitung theoretisch und an praktischen Beispielen darzulegen. Diese Verfahren ermoglichen

es, allgemeine Segmentierungsprobleme zu losen.

In den ersten beiden Kapiteln wurden getrennt voneinander die wichtigsten Resultate der

Bayesschen Bildanalyse und der diskreten Optimierung mit Graph-Cut vorgestellt. Auf der einen

Seite fuhrten die Ausfuhrungen zur Bayesschen Bildanalyse in Kapitel2zum Satz von Hammers-

ley und Clifford. Auf der anderen Seite konnte in Kapitel3 mit den Ergebnissen aktueller Arbei-

ten [KZ04, FD05] eine Klasse von effizient losbaren Optimierungsproblemen gefunden werden.

Die eindeutige Charakterisierung dieser Probleme und die Darstellung der Verbindungen zu an-

deren Gebieten ermoglichte eine umfassende Darstellung des aktuellen Forschungsstandes auf

diesem Gebiet. Weiterhin wurden Grenzen der Berechenbarkeit bei der diskreten Optimierung

aufgezeigt. Die Anwendung von Approximationsalgorithmen, wie etwa dem in Abschnitt3.4

vorgestelltenα-Expansion-Algorithmus, ermoglichte es dennoch ein Ergebnis zu finden, welche

klar definierten Optimalitatsanforderungen (siehe Abschnitt3.4.2) genugt.

Beide Hauptresultate der ersten Kapitel konnten in Abschnitt3.4.4zu einem praktikablen

Werkzeug fur die Anwendung in der Bildverarbeitung kombiniert werden.

In Kapitel 4 wurden anschließend verschiedene Problemstellungen vorgestellt, welche effi-

zient mit diskreter Optimierung gelost werden konnten. Im Kontext eines Industrieprojektes des

Lehrstuhls konnte die Kennzeichenlokalisierung des KennzeichenleserslprJ mit einem Graph-

Cut-Ansatz verbessert werden.

Bewegungssegmentierung im Sinne der Detektion planarer Teilstucken in einer Szene wur-

de in Abschnitt4.3.2 analog zu einem Ansatz von [XS05] realisiert. Eine zusatzliche Erwei-

terung dieser Idee fuhrte auf eine Losung dieser Problemstellung bei der Verwendung einer

69

70 KAPITEL 7. ZUSAMMENFASSUNG

Echtzeit-Tiefenkamera. Das dabei entwickelte Verfahren ermoglicht es, Tiefen und Grauwert-

Informationen effizient in einem Optimierungsschritt zu kombinieren.

Kapitel 5 zeigte durch Experimente, dass die vorgestellten Verfahren zur Losung ihrer Pro-

blemstellung beitragen. Die Untersuchung der Kennzeichenlokalisierung erfolgte durch die Aus-

wertung der Erkennungsrate des Gesamtsystems. Dabei wurden zusatzlich die Auswirkungen

verschiedener Parameteruberpruft. Insgesamt konnte die Erkennungsrate durch das zusatzliche

Graph-Cut basierende Verfahren um durchschnittlich0.3% Prozentpunkte gesteigert werden.

Die Leistungsfahigkeit des Graph-Cut-Ansatzes bei der Ebenensegmentierung wurde durch

den Vergleich mit Ground-Truth Daten demonstriert. Die Algorithmen fuhrten zu einer signi-

fikanten Verbesserung der initial gefundenen Ebenen. Im Vergleich zum Ansatz, welcher nur

Tiefen-Informationen verwendet, ermoglichte die Fusion mit Grauwert-Informationen eine zusatz-

liche Minimierung des Fehlers.

Anhang A

Mathematische Details

A.1 Zusammenhang zwischen binarer Bildrestaurierung und

Medianfilter

Die Ahnlichkeit der Ergebnisse zwischen einem binaren Medianfilter und der binaren Bildre-

staurierung wie sie in Abschnitt2.3.4vorgestellt wurde, werfen die Frage nach mathematischen

Zusammenhangen auf. Dieser Abschnitt versucht diesbezuglich, mogliche Querverbindungen

aufzuzeigen.

Betrachtet wird zunachst die vollstandige Energiefunktion der binaren Bildrestaurierung mit

der Konstanteβq :

E(L) = βq

∑p∈P

IpLp − α∑

(p,z)∈N

LpLz. (1.1)

Es gilt weiterhin ohne Beschrankung die folgende Aussage:

Die Beschriftung vonLp ist gleich1 ⇐⇒

βqIp − α∑

(p,z)∈N

Lz < −βqIp + α∑

(p,z)∈N

Lz. (1.2)

Dabei mussen nur die Summanden der Zielfunktion betrachtet werden, welche vonp abhangig

sind. Weitere Umformungen ergeben:

0 >

∑(p,z)∈N

Lz

− βq

αIp (GC)

71

72 ANHANG A. MATHEMATISCHE DETAILS

Es lasst sich leicht sehen, dass im Gegensatz dazu fur den Medianfilter die folgende Charak-

teristik gilt: Lp = 1 ⇐⇒

0 >

∑(p,z)∈N

Iz

+ Ip (Median)

Unter den folgenden Annahmen ergibt sich daraufhin dieAquivalenz der beiden Verfahren:

1. Die Beschriftung benachbarter Pixel weicht nicht von den Werten im Originalbild ab:Lz =

Iz.

2. Fur die Parameterβq undα gilt: −βq

α= 1.

Die erste Forderung ist naturlich bei beliebigen Bildern und beliebiger Positionp nicht ge-

geben. Betrachtet man hingegen eine homogene schwarze Flache mit einem weißen Punkt im

Inneren, welcher durch Rauschen erzeugt wurde, so kann sich bei beiden Verfahren nur dieser

Punkt in seiner Beschriftung verandern.

Die zweite Annahme lasst sich noch auf die Wahrscheinlichkeitq des Rauschens zuruckfuhren:

α = −βq =1

2log

(1− q

q

)(1.3)

q =1

exp (2α) + 1. (1.4)

Fur den Wertα = 0.3 aus Beispiel2.1 ergibt sich daher der Wertq ≈ 0.354, welcher un-

gefahr mit der gewahlten Wahrscheinlichkeitubereinstimmt. Aus Gleichung (GC) lasst sich die

Funktionsweise der binaren Bildrestaurierung deutlich erkennen. Der Einfluss der Beobachtung

im aktuellen Pixel wird durch den Parameterγ = −βq

αgesteuert. Dieser gewichtet sozusagen

den PixelwertIp in der Statistik der Umgebung. Die binare Bildrestaurierung im Sinne von Ab-

schnitt2.3.4kann daher als Verallgemeinerung des Median-Filters angesehen werden.

A.2 Details zum Algorithmus von [BK04]

Die Suchbaume ausgehend vom Knotens bzw.t seien mitS undT bezeichnet. Diese Suchbaume

sind disjunkt, bilden aber keine Zerlegung der KnotenmengeV (siehe AbbildungA.1). Fur den

BaumS gilt, dass jede Kante vom Elternknoten zum Kindknoten nicht gesattigt ist. Im BaumT

gilt das Gleiche fur Kanten von den Kindknoten zu den Elternknoten.

A.2. DETAILS ZUM ALGORITHMUS VON [?] 73

Bild A.1: Darstellung der Notation und Vorgehensweise des Algorithmus von [BK04].Suchbaume:S, T . A dient zur Beschriftung der aktiven Knoten (Blatter des Suchbaumes). Allemit P beschrifteten Knoten sind passive Knoten (innere Knoten des Suchbaumes).

Die Knoten der Suchbaume konnen zwei Zustande annehmen: aktiv (Grenzknoten, Blatter

oder Knoten mit nicht erfassten Nachbarn) und passiv (innere Knoten). Aktive Knoten konnen

einen Suchbaum erweitern. Wenn ein aktiver Knoten mit einem Nachbarn aus dem anderen Such-

baum verarbeitet wird, dann ist ein damit gesuchter erhohender (augumenting) Pfad gefunden.

Der Algorithmus lasst sich in folgende 3 Phasen aufteilen:

1. Wachstumsphase: Erweiterung vonS undT solange bis sie sich”beruhren“ und den ersten

s-t-Pfad bilden.

2. Erhohungsphase: Der entsprechende Pfad wird erhoht, dadurch zerfallenS undT in Walder.

3. Anpassungsphase: Die BaumeS undT werden wiederhergestellt.

Der Zerfall der BaumeS und T in Walder geschieht, wenn eine Kante vom Elternknoten

zum Kindknoten plotzlich nach der Erhohung gesattigt ist. In der Arbeit [BK04] werden diese

Kindknoten als”Orphans“ bezeichnet. Sie bilden die Wurzelknoten der neuen Teilbaume.

In der Anpassungsphase wird anschließend zu jedem Orphan ein neuer Elternknoten gesucht,

welcher sich im gleichen Suchwald befindet wie der Orphan selbst (sozusagen eine Wiederher-

stellung). Die neue Verbindung zum neuen Elternknoten darf nicht gesattigt sein. Falls es keine

solche Verbindung gibt, wird der Orphan frei gegeben (free node) und alle seine Kindknoten

werden selbst zu Orphans. Daraufhin beginnt der Prozess von neuem.

Der Algorithmus endet, wenn die Suchbaume nicht weiter wachsen konnen (keine aktiven

Knoten mehr) und die Baume durch gesattigte Kanten getrennt sind. Weitere algorithmische

Details konnen [BK04] und [Kol03] entnommen werden.


A.3 Minimierung von F2-Funktionen ist NP-schwer

In [KZ04] wird der Beweisuber eine Reduktion des Problems der großten unabhangigen Menge

in einem Graphen gefuhrt. Dieses Problem ist bekanntermaßen NP-schwer.

Sei G = (V, N) ein beliebiger ungerichteter Graph mitn = ]V und m = ]N . Um die

großte unabhangige Menge1 in G zu finden, dient eine Umformulierung des Problems auf ein

Beschriftungsproblem. SeiL ∈ 0, 1n ein binarer Vektor, welcher als Reprasentation einer

Teilmenge von Knoten inG verwendet wird. Gesucht ist demnach ein binarer Vektor, welcher

einer großten unabhangigen Menge inG entspricht.

Dieser Vektor lasst sich mit einem Optimierungsproblem mit folgender Form der Zielfunkti-

on finden:

E(L) = − 1

2n

∑i

Li +∑

(i,j)∈N

LiLj. (MaxISet)

Diese Zielfunktion ist nicht mit dem in Abschnitt2.3.4beschriebenen Ising-Modell (2.27)

vergleichbar, da dieses Mal der VektorL mit 0, 1 kodiert wurde. Erkennbar ist ebenfalls, dass

diese Funktion nicht regular2 ist: 0 · 0 + 1 · 1 > 0 · 1 + 1 · 0.

Satz 1.5 Eine großte unabhangige Menge in einem ungerichteten GraphenG = (V, N) lasst

sich durch Minimierung von(MaxISet) finden.

Beweis zu 1.5: Sei L die Losung von (MaxISet). Im Folgenden seien binare VektorenL ∈0, 1n zusatzlich zur Vektordarstellung mit ihrer entsprechenden Menge von Knoten ausV

identifiziert.

Annahme 1: L ist keine unabhangige Menge.

Dann gibt es mindestens ein benachbartes Knotenpaar inL und es gilt demnach mitk = ]L:

E(L) ≥ − k

2n+ 1 > − 1

2n= E(v). (1.6)

mit einem beliebigen Knotenv ausV . Daher kannL nicht die Losung von (MaxISet) sein

und es ergibt sich der gewunschte Widerspruch zur Annahme1.

Annahme 2: Es gibt eine CliqueL in G mit ]L > ]L = k.

1A ⊆ V ist eine unabhangige Menge inG ⇐⇒ ∀v ∈ A : NG(v) ∩A = ∅2Aus der Regularitat vonE wurde sich folgende Argumentationskette ergeben:E regular→E graph-darstellbar

→ (MaxISet) ∈ P → Maximum Independent Set∈ P → P = NP → Fields Medal.

A.4. VERIFIKATION DER GRAPH-KONSTRUKTION BEI F2-FUNKTIONEN 75

Es ergibt sich sofort die Folgerung:

E(L) = −]L

2n< − k

2n= E(L). (1.7)

Damit waren Annahme1 und Annahme2 widerlegt und der Beweis vollstandig.

A.4 Verifikation der Graph-Konstruktion bei F2-Funktionen

Im Folgenden soll die Korrektheit der Graph-Konstruktion furF2-Funktionen bewiesen werden.

Als”Wegweiser“ dient Tabelle3.4. Mit ∝ sei die Gleichheit bis auf eine Konstante bezeichnet.

Satz 1.8 Die Graph-Konstruktion fur F2 Funktionen, wie in Tabelle3.4beschrieben, ist korrekt.

Beweis zu 1.8: Gegeben sei ein minimaler SchnittC im konstruierten Graphen. MitL sei die

darauf definierte Beschriftung bezeichnet. Die SchreibweiseLi = 0 als Index einer Summe

bedeutet, dassuber alle moglicheni summiert wird, fur dieLi = 0 gilt.

∑e∈C

w(e) =∑Li=0Lj=1

w((vi, vj)) +∑Li=1

w((s, vi)) +∑Li=0

w((vi, t)) (1.9)

Die einzelnen Kantengewichte konnen durch die verwendeten Werte bei der Konstruktion

(siehe Tabelle3.4) ersetzt werden. Dazu seien die AbkurzungenEi,jab

def= Ei,j(a, b) und Ei

adef=

Ei(a) verwendet. Fur die einzelnen Summanden der obigen Gleichung ergibt sich daraufhin:

∑Li=0Lj=1

w((vi, vj)) =∑Li=0Lj=1

(Ei,j

01 + Ei,j10 − Ei,j

00 − Ei,j11

)(1.10)

∑Li=1

w((s, vi)) =∑

Li=1,Ei1≥Ei

0

(Ei

1 − Ei0

)+∑Li=1

∑j, Ei,j

10 ≥Ei,j00

(Ei,j

10 − Ei,j00

)+ (1.11)

+∑Li=1

∑j, Ej,i

11≥Ej,i10

(Ej,i

11 − Ej,i10

)(1.12)


∑Li=0

w((vi, t)) =∑

Li=0,Ei1≤Ei

0

(Ei

0 − Ei1

)+∑Li=0

∑j, Ei,j

10 ≤Ei,j00

(Ei,j

00 − Ei,j10

)+ (1.13)

+∑Li=0

∑j,Ej,i

11≤Ej,i10

(Ej,i

10 − Ej,i11

)(1.14)

Fur dieEi-Terme gelten folgende Vereinfachungen:

∑Li=1,Ei

1≥Ei0

(Ei

1 − Ei0

)+

∑Li=0,Ei

1≤Ei0

(Ei

0 − Ei1

)=

∑i, Ei(Li)≥Ei(1−Li)

(Ei(Li)− Ei(1− Li)

)(1.15)

=∑

i

Ei(Li)−∑

i

(min

x∈0,1Ei(x)

)(1.16)

∝∑

i

Ei(Li) (1.17)

Ziel ist es noch zu zeigen, dass der Ausdruck∑i,j

Ei,j(Li, Lj) und die folgende Summe bis

auf eine Konstanteaquivalent sind:

∑Li=0Lj=1

(Ei,j

01 + Ei,j10 − Ei,j

00 − Ei,j11

)+ (1.18)

+∑Li=1

∑j, Ei,j

10 ≥Ei,j00

(Ei,j

10 − Ei,j00

)+ (1.19)

+∑Lj=1

∑i, Ei,j

11 ≥Ei,j10

(Ei,j

11 − Ei,j10

)+ (1.20)

+∑Li=0

∑j, Ei,j

10 ≤Ei,j00

(Ei,j

00 − Ei,j10

)+ (1.21)

+∑Lj=0

∑i, Ei,j

11 ≤Ei,j10

(Ei,j

10 − Ei,j11

)(1.22)

An den Summanden (1.18) bis (1.22) lasst sich erkennen, dass es vollkommen legitim ist, die

einzelnen TermeEi,j getrennt voneinander zu betrachten. An dieser Stelle seien daher wieder

A.4. VERIFIKATION DER GRAPH-KONSTRUKTION BEI F2-FUNKTIONEN 77

die folgenden Abkurzungen und die Matrix-Notation der Funktion verwendet:

(Ei,j

00 Ei,j01

Ei,j10 Ei,j

11

)=

(A B

C D

)(1.23)

Bei einem TermEi,j ist es notwendig, 4 Falle3 zu untersuchen. Aus der obigen großen Sum-

me lassen sich daraufhin die Summanden angeben, welche voni und j gleichzeitig abhangig

sind. Diese Summanden seien mitSi,j bezeichnet und in der Matrix-Notation dargestellt. Ziel ist

es, zu zeigen, dassSi,j ∝ Ei,j gilt.

1. Fall C ≥ A undD ≥ C

Si,j =

(0 B + C − A−D + D − C

C − A C − A + D − C

)(1.24)

=

(0 B − A

C − A D − A

)∝

(0 B − A

C − A D − A

)+

(A A

A A

)= Ei,j (1.25)

2. Fall C ≥ A undD ≤ C

Si,j =

(C −D B + C − A−D

C − A + C −D C − A

)(1.26)

=

(C −D B + C − A−D

2C − A−D C − A

)+

(A− C + D A− C + D

A− C + D A− C + D

)= Ei,j

(1.27)

3. Fall C ≤ A undD ≥ C

Si,j =

(A− C B + C − A−D + A− C + D − C

0 D − C

)(1.28)

=

(A− C B − C

0 D − C

)∝

(A− C B − C

0 D − C

)+

(C C

C C

)= Ei,j (1.29)

3Die 4 Falle sind nicht disjunkt. Bei den jeweiligen Schnittmengen fallen aber die Argumentationen (Umfor-mungen) zu einer zusammen.


4. Fall C ≤ A undD ≤ C

Si,j =

(A− C + C −D B + C − A−D + A− C

C −D 0

)(1.30)

=

(A−D B −D

C −D 0

)∝

(A−D B − C

C −D 0

)+

(D D

D D

)= Ei,j (1.31)

Setzt man diese Argumentation fur die gesamte Funktion zusammen, erhalt man das gewunsch-

te Resultat:

∑e∈C

w(e) ∝∑

i

Ei(Li) +∑i,j

Ei,j(Li, Lj) = F (L) (1.32)

Anhang B

Details zu den Experimenten

B.1 Verwendete Parameter bei der Kennzeichenlokalisierung

Sequenz vx vy

NLSR520-2005* 175 64NLTest8288 175 64

Elzerberg Testset 22282350 80

Tabelle B.1: Verwendete Parameter bei den Experimenten der Kennzeichenlokalisierung

TabelleB.1 zeigt die verwendeten Angaben fur die Maximalgroße eines Nummernschildes.

Als Nachbarschaft bei der Zielfunktion des Optimierungsproblems wurde die 8er-Nachbarschaft

(siehe Abschnitt2.1) verwendet.

B.2 Problemfalle bei der Kennzeichenlokalisierung

In AbbildungB.1 ist eine Schwierigkeit bei der Kennzeichenlokalisierung erkennbar. Deutsche

Trennungssymbole bewirken, dass der Graph-Cut Ansatz den Rand dieser Zeichen gegenuber

dem Rand des Nummernschildes bevorzugt. Dies kann zwar durch eine großere Teilfixierung des

Vordergrundes verhindet werden, fuhrt aber zu einer starkeren Abhangigkeit von der Hypothese.

79

80 ANHANG B. DETAILS ZU DEN EXPERIMENTEN

Bild B.1: Problemfall bei der Kennzeichenlokalisierung: Trennung entlang der deutschenTrennungssymbole: (Links) Origin albild, (Rechts) Segmentierung des Bildes in Interlaced-Darstellung

Parameter Wertγ 3λ 1

2

αp 4 · 103

βp 0.03 ∼= 3cmκp 0.03 ∼= 3cmκe 8

Tabelle B.2: Verwendete Parameter bei den Experimenten der Ebenensegmentierung

B.3 Verwendete Parameter bei der Ebenendetektion

In TabelleB.2 sind alle verwendeten Parameter bei den Verfahren der Ebenendetektion auf-

gefuhrt. Diese Werte wurden bei den Experimenten verwendet und orientieren sich an empirisch

gewahlten Werten und Angaben aus der Literatur wie etwa [XS05].

B.4 Weitere Beispielbilder der Ebenendetektion

Bild B.2: Beispiel fur eine Ebenensegmentierung: (Links) Startebene, (Mitte) Verfeinerung mitGraph-Cut und reiner Tiefeninformation, (Rechts) Verfeinerung mit Graph-Cut unter Verwen-dung von Tiefen- und Grauwertinformationen

B.4. WEITERE BEISPIELBILDER DER EBENENDETEKTION 81

Bild B.3: Originalbild von Beispiel5.5aufgenommen mit einer Sony Kamera

Die AbbildungB.3 zeigt eineubersichtliche Darstellung der verwendeten Szene von Bei-

spiel 5.5. Ein weiteres Beispiel fur das Ergebnis einer Ebenendetektion mit Graph-Cut ist in

AbbildungB.2 dargestellt.

82 ANHANG B. DETAILS ZU DEN EXPERIMENTEN

Literaturverzeichnis

[BDV07] J. M. Bioucas-Dias, G. Valadao:Phase Unwrapping via Graph Cuts, Image Pro-

cessing, IEEE Transactions on, Bd. 16, Nr. 3, March 2007, S. 698–709.

[Bes86] J. Besag:On the Statistical Analysis of Dirty Pictures, Journal of the Royal Stati-

stical Society, Bd. 48, 1986, S. 259–279.

[BFL06] Y. Boykov, G. Funka-Lea:Graph Cuts and Efficient N-D Image Segmentation, In-

ternational Journal of Computer Vision, Bd. 70, Nr. 2, 2006, S. 109–131.

[BJ00] Y. Boykov, M.-P. Jolly: Interactive Organ Segmentation Using Graph Cuts, in

MICCAI ’00: Proceedings of the Third International Conference on Medical Image

Computing and Computer-Assisted Intervention, Springer-Verlag, London, UK,

2000, S. 276–286.

[BJ01a] Y. Boykov, M. Jolly: Demonstration of segmentation with interactive graph cuts,

in Eighth IEEE International Conference on Computer Vision, 2001. ICCV 2001.

Proceedings, Bd. 2, 7-14 July 2001, S. 741–741.

[BJ01b] Y. Boykov, M.-P. Jolly: Interactive graph cuts for optimal boundary & region seg-

mentation of objects in N-D images, in Computer Vision, 2001. ICCV 2001. Procee-

dings. Eighth IEEE International Conference on, Bd. 1, 7-14 July 2001, S. 105–112.

[BK03] Y. Boykov, V. Kolmogorov:Computing geodesics and minimal surfaces via graph

cuts, in Computer Vision, 2003. Proceedings. Ninth IEEE International Conference

on, Bd. 1, 2003, S. 26–33.

[BK04] Y. Boykov, V. Kolmogorov:An experimental comparison of min-cut/maxflow algo-

rithms for energy minimization in vision, Pattern Analysis and Machine Intelligence,

IEEE Transactions on, Bd. 26, Nr. 9, Sept. 2004, S. 1124–1137.

83

84 LITERATURVERZEICHNIS

[BT99] S. Birchfield, C. Tomasi:Multiway cut for stereo and motion with slanted surfa-

ces, in Computer Vision, 1999. The Proceedings of the Seventh IEEE International

Conference on, Bd. 1, 20-27 Sept. 1999, S. 489–495.

[BVZ98a] Y. Boykov, O. Veksler, R. Zabih:Markov random fields with efficient approximati-

ons, in Computer Vision and Pattern Recognition, 1998. Proceedings. 1998 IEEE

Computer Society Conference on, 23-25 June 1998, S. 648–655.

[BVZ98b] Y. Boykov, O. Veksler, R. Zabih:Efficient Restoration of Multicolor Images with

Independent Noise, TR98-1712, Cornell University, 27, 1998.

[BVZ99a] Y. Boykov, O. Veksler, R. Zabih:Fast approximate energy minimization via graph

cuts, in Computer Vision, 1999. The Proceedings of the Seventh IEEE International

Conference on, Bd. 1, 20-27 Sept. 1999, S. 377–384.

[BVZ99b] Y. Boykov, O. Veksler, R. Zabih:A New Algorithm for Energy Minimization with

Discontinuities, in Energy Minimization Methods in Computer Vision and Pattern

Recognition, 1999, S. 205–220.

[BVZ01] Y. Boykov, O. Veksler, R. Zabih:Fast approximate energy minimization via graph

cuts, Pattern Analysis and Machine Intelligence, IEEE Transactions on, Bd. 23,

Nr. 11, Nov. 2001, S. 1222–1239.

[CG06] D. Cremers, L. Grady:Statistical Priors for Efficient Combinatorial Optimization

Via Graph Cuts., in Computer Vision - ECCV 2006, 9th European Conference on

Computer Vision, Graz, Austria, May 7-13, 2006, Proceedings, Part III, 2006, S.

263–274.

[CKS03] D. Cremers, T. Kohlberger, C. Schnorr: Shape Statistics in Kernel Space for Varia-

tional Image Segmentation, Pattern Recognition, Bd. 36, Nr. 9, 2003, S. 1929–1943.

[Cun85] W. H. Cunningham:Minimum Cuts, Modular Functions, and Matroid Polyhedra,

Networks, Bd. 15, 1985, S. 205–215.

[CWC06] W. Cai, J. Wu, A. Chung:Shape-Based Image Segmentation Using Normalized

Cuts, in IEEE International Conference on Image Processing (ICIP’06), 2006, S.

1101–1104.

LITERATURVERZEICHNIS 85

[CZ01] D. Cobzas, H. Zhang:Planar patch extraction with noisy depth data, in Proceedings

Third International Conference on 3-D Digital Imaging and Modeling, Quebec, Ca-

nada, May 2001, S. 240–245.

[CZ05] A. Y. S. Chia, V. Zagorodnov:Graph Cut Segmentation on Convoluted Objects,

IEEE International Conference on Image Processing, Bd. 3, 2005, S. 848–851.

[DJP*94] E. Dahlhaus, D. S. Johnson, C. H. Papadimitriou, P. D. Seymour, M. Yannakakis:

The Complexity of Multiterminal Cuts, SIAM J. Comput., Bd. 23, Nr. 4, 1994, S.

864–894.

[FD05] D. Freedman, P. Drineas:Energy Minimization via Graph Cuts: Settling What is

Possible, in CVPR ’05: Proceedings of the 2005 IEEE Computer Society Confe-

rence on Computer Vision and Pattern Recognition (CVPR’05) - Volume 2, IEEE

Computer Society, Washington, DC, USA, 2005, S. 939–946.

[Fer95] P. Ferrari:Fast Approximate MAP Restoration of Multicolor Images, Journal of the

Royal Statistical Society, Bd. 57, Nr. 3, 1995, S. 485–500.

[FZ05] D. Freedman, T. Zhang:Interactive graph cut based segmentation with shape priors,

in Computer Vision and Pattern Recognition, 2005. CVPR 2005. IEEE Computer

Society Conference on, Bd. 1, 2005, S. 755–762.

[GG84] S. Geman, D. Geman:Stochastic Relaxation, Gibbs Distributions, and the Bayesian

Restoration of Images, Pattern Analysis and Machine Intelligence, IEEE Transacti-

ons on, Bd. 6, Nr. 6, November 1984, S. 721–741.

[GPS86] Greig, Porteuous, Seheult:Discussion on On the statistical analysis of dirty pictures,

Journal of the Royal Society of Statistics, Series B, Bd. 48, 1986, S. 282–284.

[GPS89] Greig, Porteous, Seheult:Exact Maximum A Posteriori Estimation for Binary

Images, Journal of the Royal Statistical Society, Series B, Bd. 51, 1989, S. 271–

279.

[Gra87] C. Graffigne:Experiments in texture analysis and segmentation, PhD thesis, Brown

University, 1987.

[GS06] L. Grady, E. Schwartz:Isoperimetric graph partitioning for image segmentation,

Pattern Analysis and Machine Intelligence, IEEE Transactions on, Bd. 28, Nr. 3,

March 2006, S. 469–475.


[Hub80] P. J. Huber:Robust Statistics, John Wiley and Sons, 1980.

[IG98] H. Ishikawa, D. Geiger:Segmentation by grouping junctions, in IEEE Computer So-

ciety Conference on Computer Vision and Pattern Recognition, 1998. Proceedings,

23-25 June 1998, S. 125–131.

[IG99] H. Ishikawa, D. Geiger:Mapping Image Restoration to a Graph Problem, in IEEE-

EURASIP Workshop on Nonlinear Signal and Image Processing, 1999, S. 20–23.

[Ish03] H. Ishikawa:Exact optimization for Markov random fields with convex priors, Pat-

tern Analysis and Machine Intelligence, IEEE Transactions on, Bd. 25, Nr. 10, Oct.

2003, S. 1333–1336.

[Isi25] E. Ising:Beitrag zur Theorie des Ferromagnetismus, Zeitschrift fuer Physik, Bd. 31,

1925, S. 253–258.

[JB06] O. Juan, Y. Boykov:Active Graph Cuts, in Computer Vision and Pattern Reco-

gnition, 2006 IEEE Computer Society Conference on, Bd. 1, 17-22 June 2006, S.

1023–1029.

[KB05] V. Kolmogorov, Y. Boykov: What metrics can be approximated by geo-cuts, or

global optimization of length/area and flux, in Computer Vision, 2005. ICCV 2005.

Tenth IEEE International Conference on, Bd. 1, 17-21 Oct. 2005, S. 564–571.

[KD07] O. Kahler, J. Denzler:Detecting Coplanar Feature Points in Handheld Image Se-

quences, in Proceedings Conference on Computer Vision Theory and Applications

(VISAPP 2007), Bd. 2, INSTICC Press, Barcelona, March 2007, S. 447–452.

[KKZ03] J. Kim, V. Kolmogorov, R. Zabih:Visual correspondence using energy minimiza-

tion and mutual information, in Computer Vision, 2003. Proceedings. Ninth IEEE

International Conference on, Bd. 2, 13-16 Oct. 2003, S. 1033–1040.

[Kol03] V. Kolmogorov: Graph-based Algorithms for Multi-camera Reconstruction Pro-

blem, PhD thesis, Cornell University, CS Department, 2003.

[KR04] R. Klette, A. Rosenfeld:Digital Geometry: Geometric Methods for Digital Picture

Analysis, Morgan Kaufmann Publishers Inc., San Francisco, CA, USA, 2004.


[KR06] V. Kolmogorov, C. Rother: Comparison of Energy Minimization Algorithms for

Highly Connected Graphs., in Computer Vision - ECCV 2006, 9th European Con-

ference on Computer Vision, Graz, Austria, May 7-13, 2006, Proceedings, Part II,

2006, S. 1–15.

[KRD07] O. Kahler, E. Rodner, J. Denzler:Fusion of Range and Intensity Information Using

Graph-Cut for Planar Patch Segmentation, (submitted to Dynamic 3D Imaging

Workshop 2007), 5 2007.

[KT05] J. Kleinberg, E. Tardos:Algorithm Design, Addison-Wesley Longman Publishing

Co., Inc., Boston, MA, USA, 2005.

[KT06] P. Kohli, P. H. S. Torr:Measuring Uncertainty in Graph Cut Solutions - Efficiently

Computing Min-marginal Energies Using Dynamic Graph Cuts., in Computer Vi-

sion - ECCV 2006, 9th European Conference on Computer Vision, Graz, Austria,

May 7-13, 2006, Proceedings, Part II, 2006, S. 30–43.

[KTZ05] M. P. Kumar, P. H. S. Torr, A. Zisserman:OBJ CUT, in CVPR ’05: Proceedings of

the 2005 IEEE Computer Society Conference on Computer Vision and Pattern Re-

cognition (CVPR’05) - Volume 1, IEEE Computer Society, Washington, DC, USA,

2005, S. 18–25.

[KZ02] V. Kolmogorov, R. Zabih:Multi-camera Scene Reconstruction via Graph Cuts, in

European Conference on Computer Vision, 2002, S. 82–96.

[KZ04] V. Kolmogorov, R. Zabin:What energy functions can be minimized via graph cuts?,

Pattern Analysis and Machine Intelligence, IEEE Transactions on, Bd. 26, Nr. 2,

Feb 2004, S. 147–159.

[Lan00] R. Lange:3D Time-of-Flight Distance Measurement with Custom Solid-State Image

Sensors in CMOS/CCD-Technology, PhD thesis, University of Siegen, 2000.

[LSGX05] H. Lombaert, Y. Sun, L. Grady, C. Xu:A Multilevel Banded Graph Cuts Method for

Fast Image Segmentation, in ICCV ’05: Proceedings of the Tenth IEEE Internatio-

nal Conference on Computer Vision (ICCV’05) Volume 1, IEEE Computer Society,

Washington, DC, USA, 2005, S. 259–265.


[Pol] D. B. Pollard: Hammersley-clifford theorem for markov ran-

dom fields. Handouts, Available at http://www, star.yale.edu/

pollard/251.spring04/Handouts/Hammersley-Clifford.pdf.

[PR75] Picard, Ratliff: Minimum cuts and related problems, Networks, Bd. 5, 1975, S.

357–370.

[RK06] C. Rother, V. Kolmogorov:Minimizing non-submodular functions with graph cuts

- a review, MSR-TR-2006-100, Microsoft Research, 2006.

[RMBK06] C. Rother, T. Minka, A. Blake, V. Kolmogorov:Cosegmentation of Image Pairs by

Histogram Matching - Incorporating a Global Constraint into MRFs, in CVPR ’06:

Proceedings of the 2006 IEEE Computer Society Conference on Computer Vision

and Pattern Recognition, IEEE Computer Society, Washington, DC, USA, 2006, S.

993–1000.

[RSZ06] A. Raj, G. Singh, R. Zabih:MRF’s for MRI’s: Bayesian Reconstruction of MR

Images via Graph Cuts., in 2006 IEEE Computer Society Conference on Computer

Vision and Pattern Recognition (CVPR 2006), 17-22 June 2006, New York, NY, USA,

2006, S. 1061–1068.

[SC06] T. Schoenemann, D. Cremers:Near Real-Time Motion Segmentation Using Graph

Cuts., in DAGM-Symposium, 2006, S. 455–464.

[Sch04] A. Schrijver: Combinatorial Optimization : Polyhedra and Efficiency (Algorithms

and Combinatorics), Springer, July 2004.

[SG06] A. K. Sinop, L. Grady:Accurate Banded Graph Cut Segmentation of Thin Structures

Using Laplacian Pyramids., in Medical Image Computing and Computer-Assisted

Intervention - MICCAI 2006, 9th International Conference, Copenhagen, Denmark,

October 1-6, Proceedings, Part II, 2006, S. 896–903.

[SM97] J. Shi, J. Malik: Motion Segmentation and Tracking using normalized cuts, 962,

University of California, Berkeley, 1997.

[SM98] J. Shi, J. Malik:Motion segmentation and tracking using normalized cuts, in Pro-

ceedings of the Sixth International Conference on Computer Vision, 1998, S. 1154–

1160.


[SM00] J. Shi, J. Malik: Normalized cuts and image segmentation, Pattern Analysis and

Machine Intelligence, IEEE Transactions on, Bd. 22, Nr. 8, Aug. 2000, S. 888–905.

[SRR07] W. Schorisch, H. Rodner, H.-J. Rodner:Thanks for everything, International Jour-

nal for Acknowledgements, Bd. 1, 2007, S. 1–10.

[SZS*06] R. Szeliski, R. Zabih, D. Scharstein, O. Veksler, V. Kolmogorov, A. Agarwala, M. F.

Tappen, C. Rother:A Comparative Study of Energy Minimization Methods for Mar-

kov Random Fields., in Computer Vision - ECCV 2006, 9th European Conference

on Computer Vision, Graz, Austria, May 7-13, 2006, Proceedings, Part II, 2006, S.

16–29.

[Vek99] O. Veksler:Efficient graph-based energy minimization methods in computer vision,

PhD thesis, Faculty of the Graduate School of Cornell University, 1999.

[Vek00] O. Veksler:Image Segmentation by Nested Cuts, in IEEE Conference on Computer

Vision and Pattern Recognition, Bd. 1, 2000, S. 339–344.

[vH06] W. von Hansen: Robust Automatic Marker-free Registration of Terrestrial Scan

Data, in Proceedings Photogrammetric Computer Vision 2006, Bd. 36, Bonn, Ger-

many, September 2006, S. 105–110.

[Win06] G. Winkler: Image Analysis, Random Fields and Markov Chain Monte Carlo Me-

thods, Springer-Verlag New York, Inc., 2006, ISBN 3540442138.

[XS05] J. Xiao, M. Shah:Motion layer extraction in the presence of occlusion using graph

cuts, Pattern Analysis and Machine Intelligence, IEEE Transactions on, Bd. 27,

Nr. 10, Oct. 2005, S. 1644–1659.

[YFW00] J. S. Yedidia, W. T. Freeman, Y. Weiss:Generalized Belief Propagation, in NIPS,

2000, S. 689–695.

[YS06] P. Yan, M. Shah:Segmentation of Neighboring Structures by Modeling Their In-

teraction, in CVPRW ’06: Proceedings of the 2006 Conference on Computer Visi-

on and Pattern Recognition Workshop, IEEE Computer Society, Washington, DC,

USA, 2006, S. 77.

Verzeichnis der Bilder

2.1 Binare Bildrestaurierung. . . . . . . . . . . . . . . . . . . . . . . . . . . . . .15

3.1 Konstruktion der Kanten fur F2-Funktionen. . . . . . . . . . . . . . . . . . . . 29

3.2 Graphkonstruktion fur ein einfaches Beispiel. . . . . . . . . . . . . . . . . . . 31

3.3 Einfaches Graph-Cut-Beispiel. . . . . . . . . . . . . . . . . . . . . . . . . . . 32

3.4 Beziehungen der Funktionsklassen. . . . . . . . . . . . . . . . . . . . . . . . . 35

3.5 Beispiel eines Alpha-Erweiterungsschrittes. . . . . . . . . . . . . . . . . . . . 37

4.1 Veranschaulichung von Gleichung (4.4) . . . . . . . . . . . . . . . . . . . . . . 47

4.2 Segmentierung mit Teilfixierung. . . . . . . . . . . . . . . . . . . . . . . . . . 48

4.3 Ausgangsbild fur die Kennzeichenlokalisierung. . . . . . . . . . . . . . . . . . 49

4.4 Veranschaulichung der fixierten Bereiche. . . . . . . . . . . . . . . . . . . . . 49

4.5 Ergebnis der Kennzeichenlokalisierung. . . . . . . . . . . . . . . . . . . . . . 50

4.6 Beispiel fur eine Level-Set Darstellung. . . . . . . . . . . . . . . . . . . . . . . 53

4.7 Beispiel fur die sigmoidale Funktion s. . . . . . . . . . . . . . . . . . . . . . . 54

4.8 Bewegungssegmentierung einer Ebene. . . . . . . . . . . . . . . . . . . . . . . 54

4.9 Ebenensegmentierung mit Graph-Cut-Verfeinerung. . . . . . . . . . . . . . . . 57

5.1 Kamera fur Echtzeit-Tiefeninformationen. . . . . . . . . . . . . . . . . . . . . 62

5.2 Versuchsaufbau fur Beispiel5.5 . . . . . . . . . . . . . . . . . . . . . . . . . . 63

5.3 Fehlere bei [KD07] Verfahren . . . . . . . . . . . . . . . . . . . . . . . . . . . 64

5.4 Fehlere bei Region-Growing Verfahren. . . . . . . . . . . . . . . . . . . . . . 64

5.5 Beispiel fur eine Ebenensegmentierung. . . . . . . . . . . . . . . . . . . . . . 65

A.1 Notation von [BK04] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .73

B.1 Problemfall bei der Kennzeichenlokalisierung. . . . . . . . . . . . . . . . . . . 80

B.2 Beispiel fur eine Ebenensegmentierung. . . . . . . . . . . . . . . . . . . . . . 80

91

92 VERZEICHNIS DER BILDER

B.3 Originalbild von Beispiel5.5 . . . . . . . . . . . . . . . . . . . . . . . . . . . .81

Verzeichnis der Tabellen

3.2 Laufzeiten von Max-Flow Algorithmen. . . . . . . . . . . . . . . . . . . . . . 25

3.4 Graph-Konstruktion fur F2-Funktionen. . . . . . . . . . . . . . . . . . . . . . . 30

3.6 Literaturverweise: Charakterisierung der graph-darstellbaren Funktionen. . . . . 35

5.1 Verwendete Testsequenzen. . . . . . . . . . . . . . . . . . . . . . . . . . . . .60

5.2 Ergebnisse der Kennzeichenlokalisierung. . . . . . . . . . . . . . . . . . . . . 60

5.3 Auswertung der Laufzeit. . . . . . . . . . . . . . . . . . . . . . . . . . . . . .60

5.4 Auswertung des Parametersσ . . . . . . . . . . . . . . . . . . . . . . . . . . . 61

5.5 Auswertung des Parametersux . . . . . . . . . . . . . . . . . . . . . . . . . . . 61

5.6 Durchschnittswerte vone . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .65

B.1 Verwendete Parameter bei den Experimenten der Kennzeichenlokalisierung. . . 79

B.2 Verwendete Parameter bei den Experimenten der Ebenensegmentierung. . . . . 80

93

segmentierung mit graph-cut-methoden

Documents