Friedrich-Alexander-UniversitatErlangen-Nurnberg
Lehrstuhl fur Multimediakommunikation undSignalverarbeitung
Prof. Dr.-Ing. Andre Kaup
Bachelorarbeit
Merkmalsauswahl fur die Energieschatzungeines Videodecoders
von Matthias Kranzler
September 2016
Betreuer: Christian Herglotz, Dipl.-Ing.
Erklarung
Ich versichere, dass ich die vorliegende Arbeit ohne fremde Hilfe und
ohne Benutzung anderer als der angegebenen Quellen angefertigt
habe, und dass die Arbeit in gleicher oder ahnlicher Form noch kei-
ner anderen Prufungsbehorde vorgelegen hat und von dieser als Teil
einer Prufungsleistung angenommen wurde. Alle Ausfuhrungen, die
wortlich oder sinngemaß ubernommen wurden, sind als solche ge-
kennzeichnet.
————————————
Ort, Datum
————————————
Unterschrift
INHALTSVERZEICHNIS I
Inhaltsverzeichnis
Kurzfassung V
Abkurzungsverzeichnis VI
Formelzeichen & Variablen VII
1 Einleitung 1
2 Video-Codec 4
2.1 Grundlagen der hybriden Videocodierung . . . . . . . . . . . . . . . . 5
2.1.1 Block-Partitionierung und Farbmodell . . . . . . . . . . . . . . 5
2.1.2 Entropiecodierung . . . . . . . . . . . . . . . . . . . . . . . . . 8
2.1.3 Diskrete Cosinus-Transformation . . . . . . . . . . . . . . . . . 9
2.1.4 Quantisierung . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
2.1.5 Lauflangencodierung . . . . . . . . . . . . . . . . . . . . . . . 12
2.1.6 Bewegungsschatzung und Bewegungskompensation . . . . . 13
2.1.7 Intra-Pradiktion . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
2.1.8 In-Loop-Filter . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
2.2 Merkmale der Videostandards . . . . . . . . . . . . . . . . . . . . . . 18
2.3 Das merkmalbasierte Modell . . . . . . . . . . . . . . . . . . . . . . . 20
2.3.1 Messungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
2.3.2 Bitstrommerkmale . . . . . . . . . . . . . . . . . . . . . . . . . 23
2.3.3 Koeffizientenbestimmung und Kreuzvalidierung . . . . . . . . . 24
II
2.3.4 Das erweiterte merkmalbasierte Modell . . . . . . . . . . . . . 28
3 Einfluss der Trainingsdaten 29
4 Ansatze der Merkmalselektion 32
4.1 Suchstrategien und Ansatze der Feature Subset Selection . . . . . . . 34
4.1.1 Suchstrategien . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
4.1.2 Ansatze der Feature Subset Selection (FSS) . . . . . . . . . . 34
4.2 Kombination von Merkmalen . . . . . . . . . . . . . . . . . . . . . . . 37
5 Algorithmen der Kombination und Selektion der Merkmale 38
5.1 Algorithmen der Selektion . . . . . . . . . . . . . . . . . . . . . . . . . 38
5.2 Algorithmen der Kombination . . . . . . . . . . . . . . . . . . . . . . . 44
6 Evaluation der Algorithmen 46
6.1 Evaluation der FSS-Algorithmen . . . . . . . . . . . . . . . . . . . . . 48
6.2 Evaluation der Kombination-Algorithmen . . . . . . . . . . . . . . . . . 54
6.3 Untermengen der FSS . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
7 Fazit und Ausblick 58
A Video-Sequenzen und Merkmale der Videostandards 61
A.1 Video-Sequenzen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
A.2 H.263 Merkmale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64
A.3 H.264 Merkmale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
A.4 HEVC Merkmale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66
A.5 VP9 Merkmale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
B Diagramme der Algorithmen 68
Abbildungsverzeichnis 81
Tabellenverzeichnis 82
INHALTSVERZEICHNIS III
Literaturverzeichnis 84
KURZFASSUNG V
Kurzfassung
In dieser Arbeit werden zu Beginn die Grundlagen der hybriden Videocodierung er-
klart und das merkmalbasierte Modell vorgestellt. Anschließend wird der Einfluss
der Trainingsdaten auf die Schatzung untersucht, wofur das merkmalbasierte Mo-
dell des HEVC-Videostandards genutzt wird.
Des Weiteren werden zwei Ansatze der Merkmalselektion erklart. Es werden so-
wohl Algorithmen, welche Merkmale selektieren, als auch Algorithmen die Merkma-
le kombinieren, erklart. Abschließend werden die behandelten Algorithmen evaluiert
und verschiedene Untermengen fur jeden Videostandard vorgeschlagen.
VI ABKURZUNGSVERZEICHNIS
Abkurzungsverzeichnis
BE Backward Elimination
BStE Backward Stepwise Elimination
COEFF Codierung
DCT Diskrete Cosinus Transformation
FM Feature Merging
FS Forward Selection
FSS Feature Subset Selection
FStS Forward Stepwise Selection
ILF In-Loop Filter
INTER Interframe Pradiktion
INTRA Intraframe Pradiktion
PSNR Peak-Signal-to-Noise-Ratio
OFFSET Offset
TRANS Transformation
FORMELZEICHEN VII
Formelzeichen & Variablen
Edec durch Modell geschatzte Energie [J]
Edec gemessene Energie [J]
FS Feature Selection
ε mittlerer Schatzfehler
ε relativer Schatzfehler
KAPITEL 1. EINLEITUNG 1
Kapitel 1
Einleitung
Der Anteil an mobilen Endgeraten wie Smartphones oder Tablets ist in den letz-
ten Jahren stetig gestiegen. Im April 2016 haben bereits 49 Millionen Deutsche ein
Smartphone besessen [com]. Doch nicht nur die Anzahl der Besitzer von mobilen
Endgeraten nimmt zu. Bis ins Jahr 2021 wird der Anteil an mobilen Datenverbindun-
gen, die fur die Videodaten benotigt werden, auf 70% ansteigen und die jahrliche
Datenmenge um 55 % anwachsen [Eri16].
Abbildung 1.1: Mobiler Datenverkehr pro Monat, Ericsson Mobility Report Juni 2016[Eri16]
2
Fur Videodecodierung wird eine hohe Rechenleistung benotigt, deshalb werden
hierfur große Kapazitaten des Akkus eines Smartphones gebraucht. Die Decodie-
rung eines Videos in High-Definition-Auflosung wurde innerhalb von 4 Stunden den
Akku vollstandig entladen [HSR+16]. Eine moglichst energieeffiziente Codierung
von Videodaten ist aus diesen Grunden ein wichtiges Gebiet in der Forschung.
Wie die in Abb. 1.2 dargestellte Umfrage zeigt, nimmt die Energieeffizienz bei Video-
Anwendungen eine große Rolle bei dem Konsumenten ein. Fur 63 % von den 749
befragten Smartphone-Nutzern ware eine deutlich langere Akkulaufzeit wunschens-
wert und ist damit die haufigste, nachgefragte Funktion fur ein neues Handy.
Abbildung 1.2: Umfrage zu gewunschten Funktionen eines Smartphones1
1de.statista.com/graphic/5/180389/gruende-fuer-kaufentscheidung-von-smartphones.jpg,
11.09.2016
KAPITEL 1. EINLEITUNG 3
Um die Energieeffizienz verbessern zu konnen, wird ein Maßstab benotigt, wel-
chen die Bitstrom-Merkmale darstellen. Ziel dieser Arbeit ist es daher, das merk-
malbasierte Modell zu erklaren und einen Uberblick uber die Thematik der Video-
codierung zu geben. Weiterhin sollen Merkmalsauswahlalgorithmen entwickelt und
erlautert werden, die geeignete Untermengen fur diverse Anwendungen bestimmen
konnen. Eine wichtige Anwendung ist zum Beispiel die moglichst genaue Schatzung
von Merkmalen. Zusatzlich sollen Einflusse, wie die Wahl der Trainingssequenzen,
naher untersucht werden.
Um dies umzusetzen, werden in Kapitel 2 zu Beginn die Grundlagen der hybriden
Videocodierung erklart, um ein grobes Verstandnis zu vermitteln, wie die Videoco-
dierung funktioniert. Ferner werden anhand der Grundlagen verschiedene Katego-
rien fur Merkmale und das merkmalbasierte Modell eingefuhrt. Hierzu werden die
einzelnen Schritte aufgezeigt, die notwendig sind, um ein merkmalbasiertes Mo-
dell zu erstellen. In Kapitel 3 wird der Einfluss der Trainingsdaten auf die Qualitat
des Modell behandelt. Ziel der Untersuchungen soll es sein, herauszufinden, wel-
che Daten der Messungen wichtig sind. Im Folgenden werden die Ansatze fur die
Merkmalselektion eingefuhrt. Danach werden die Algorithmen beschrieben, die aus
diesen Ansatzen entwickelt wurden. Zuletzt werden die Ergebnisse der entwickelten
Algorithmen untersucht. Zum Schluss wird ein zusammenfassendes Fazit aus der
Arbeit gezogen und Ausblick in Richtung weiterer notwendiger Forschung gegeben,
welche man betreiben konnte.
4 KAPITEL 2. VIDEO-CODEC
Kapitel 2
Video-Codecs
Das folgende Kapitel soll helfen, ein Verstandnis uber die Bedeutung und die techni-
schen Hintergrunde der Merkmale des Energiemodells zu bekommen. Hierzu wer-
den sowohl die Grundlagen der hybriden Videocodierung, als auch das merkmalba-
sierte Modell erlautert. In den beiden Masterarbeiten [Yon16] und [Bow16] werden
die Videostandards VP9 und H.264 naher erklart und in [SBS14] wird eine ausfuhr-
liche Beschreibung des HEVC-Videostandards gegeben. In Abbildung 2.1 wird das
Blockschaltbild eines Videodecoders gezeigt. Die einzelnen Blocke des Blockschalt-
bildes werden in Kapitel 2.1 genauer bestimmt.
BitstromEntropie-
DecodierungInverse
QuantisierungIDCT
Bewegungs-kompensation
Intra-Prädiktion
In-Loop-FilterFrame SpeicherZusammen-
setzen
Abbildung 2.1: Blockschaltbild eines Videodecoders
2.1. GRUNDLAGEN DER HYBRIDEN VIDEOCODIERUNG 5
2.1 Grundlagen der hybriden Videocodierung
Irrelevanzreduktion und Redunanzreduktion sind zwei elementare Komponenten,
um Daten zu komprimieren. Werden die Eigenschaften der Quelle zur Kompres-
sion genutzt, so spricht man von Redundanzreduktion. Bei dieser gibt es keinen
Datenverlust im Gegensatz zur Irrelevanzreduktion, die durch das Nutzen von Ei-
genschaften der menschlichen Wahrnehmung oder durch Quantisierung realisiert
werden kann.
Nun werden die Blockbildung, das Farbmodell, die Entropiecodierung, die Diskrete
Cosinus Transformation (DCT), die Quantisierung, die Lauflangencodierung, die Be-
wegungsschatzung und -kompensation, die Intra-Pradiktion und die In-Loop-Filter
beschrieben.
2.1.1 Block-Partitionierung und Farbmodell
Blockbildung
Der erste Schritt der Video-Encodierung bildet die Block-Partitionierung, welche
fur die einfachere Verarbeitung der Bilder vorgenommen wird. Aus der Tabelle 2.1
konnen die Bezeichnungen fur die großten Blockeinheiten und die kleinsten Block-
großen der Videostandards entnommen werden.
H.263 Makroblock [16 x 16] / [8 x 8]
H.264 Makroblock [16 x 16] / [2 x 2]
HEVC CTU [64 x 64] / [4 x 4]
VP9 Superblock [64 x 64] / [4 x 4]
Tabelle 2.1: Bezeichnung der Blockeinheiten und die großte/kleinste mogliche Block-große
6
Ein Beispiel fur Block-Partionierung ist in Abbildung 2.2 zu sehen. Dieses Bild wurde
in 64 gleichmaßig große Blocke, mit den Abmessungen [64 x 64], partitioniert.
Abbildung 2.2: Bild mit gleichmaßiger Blockaufteilung
Farbmodell und Farbunterabtastung
Bei den behandelten Videostandards gibt es zwei Gruppen an Farbmodellen. Zum
einen das RGB-Farbmodell und zum anderen Farbmodelle mit Luminanz/Helligkeit
(Y) und mit Chrominanz (C). Die Darstellung auf Bildschirmen erfolgt in RGB (= Rot
Grun Blau). Ein sehr weit verbreitetes Farbmodell ist das YCbCr-Farbmodell. Bei
diesem ist eine Chrominanz Blau (Cb) und die andere Chrominanz Rot (Cr).
Ein Beispiel fur eine Aufteilung in die einzelnen Komponenten kann in Abbildung
2.3 gesehen werden. Bei genauer Betrachtung der einzelnen Komponenten lasst
sich ein Effekt erkennen, der mit der optischen Wahrnehmung des Menschen zu-
sammenhangt. Im Schwarz-Weiß-Bild sind mehr Details zu erkennen, als in den
anderen beiden Bildern der Farbkomponenten. Dies hat den Hintergrund, dass das
menschliche Auge 120 Millionen Stabchen fur die Wahrnehmung der Helligkeit und
6 Millionen Zapfen fur die Wahrnehmung von Farben hat. Folglich ist die Helligkeits-
auflosung viel scharfer als die Farbauflosung [Kau16].
2.1. GRUNDLAGEN DER HYBRIDEN VIDEOCODIERUNG 7
Abbildung 2.3: Aufteilung der einzelnen Komponenten Y, Cb und Cr aus einem Farb-bild1
Durch Farbunterabtastung kann eine Kompression der Datenmenge erreicht und
die unterschiedliche Farb- und Helligkeitsauflosung zu Nutze gemacht werden. Eine
Farbunterabtastung ist bei RGB nicht moglich, deshalb ist YCbCr besser fur Vide-
odatenkompression geeignet. In Abbildung 2.4 ist eine Darstellung fur Farbunterab-
tastung zu sehen. Die Kreise entsprechen einem Helligkeitsbildpunkt und die Kreuze
ein Cb- und Cr-Bildpunkt. Das Abtastverhaltnis 4:2:0 ist bei den in dieser Arbeit be-
handelten Videostandards sehr verbreitet.
1upload.wikimedia.org/wikipedia/commons/d/d9/Barns grand tetons YCbCr separation.jpg,
27.08.2016
8
Abbildung 2.4: Abtastverhaltnisse bei Farbsignalen [Kau16]
2.1.2 Entropiecodierung
Huffman-Codierung
Die Huffman Codierung, welche 1952 von David Huffman vorgestellt wurde, spie-
gelt eine Zuordnung von Codeworter mit minimaler Redundanz wieder. Hierbei wird
ein prafix-freier Code eingesetzt, welcher sich als Code definiert, bei dem kein an-
deres Codewort den Beginn eines anderen Codewortes bildet. Verbesserte Raten
der Codierung werden gegenuber Codewortern mit konstanter Lange erreicht, weil
Elemente, die eine hohe Wahrscheinlichkeit besitzen mit kurzen Codewortern defi-
niert werden und Elemente, mit geringer Wahrscheinlichkeit mit langen Codewortern
[Kau16].
Arithmetische Codierung
Im Gegensatz zur Huffman-Codierung und allen anderen Prafixcodes kann eine
arithmetische Codierung eine mittlere Codewortlange errreichen, die kleiner als 1
ist. Dies wird durch das Konzept erreicht, dass mehrere Symbole zu einem Code-
wort zusammengefasst werden. Bei einem prafixfreiem Code wird jedem einzelnem
Symbol ein Codewort zugeordnet.
2.1. GRUNDLAGEN DER HYBRIDEN VIDEOCODIERUNG 9
Fur die Codierung mussen die Auftrittswahrscheinlichkeiten der einzelnen Symbo-
le bekannt sein2. Anschließend konnen Intervalle fur die verschiedenen Symbole
aufgestellt werden. Durch die hohe Genauigkeit, die fur die Intervallgrenzen notig
ist, wird der technische Aufwand sehr hoch. Zudem muss ein komplettes Codewort
ubertragen werden, bevor das erste Bit decodiert werden kann [Str09].
Aus diesen Grunden mussen die Vor- und Nachteile der Huffman und arithmeti-
schen Codierung, je nach Anwendung gegeneinander abgewagt werden, um eine
optimale Losung zu finden.
2.1.3 Diskrete Cosinus-Transformation
Bei der Audiodaten-Codierung wird eine Fourier-Transformation angewendet, um
ein abgetastetes Signal in den Frequenzraum zu transformieren. Allerdings konnen
bei der Fourier-Transformation komplexe Werte nach der Transformation auftreten.
Da Videodaten nur reelle Werte haben, wird die Diskrete Cosinus Transformati-
on (DCT) eingesetzt, welche nur reelle Koeffizienten nach der Transformation ergibt.
Die DCT wandelt einen 2-Dimensionales Bild in eine 2-Dimensionale Matrix mit
Ortsfrequenzen um. Die DCT vom Typ II ist in den Videostandards sehr verbrei-
tet.
In (2.1) [Kau16] wird die Rucktransformation (IDCT) in den abgetasteten Raum be-
rechnet. Die Variable c wird wie in der untersten Gleichung berechnet. u und v sind
die Koordinaten im Ortsfrequenzraum (x → u, y → v) und N gibt die Große der
DCT-Transformation an.
f(x, y) =N−1∑u=0
N−1∑v=0
c (u) · (v) · F (u, v) · cos(π · u · (2x+ 1)
2 ·N
)· cos
(π · v · (2y + 1)
2 ·N
)(2.1)
2Dies gilt auch fur die Huffman-Codierung
10
mit c(i) =
√
1N
i = 0√2N
i > 0
Abbildung 2.5: Basisfunktionen der 8x8 DCT3
Bei der DCT werden Korrelationen innerhalb eines Einzelbildes ausgenutzt. Das
heißt bei tiefen Frequenzen in der Ortsebene ergeben sich große Bildstrukturen und
langsame Helligkeitsubergange. Bei hohen Frequenzen handelt es sich um detail-
reiche Strukturen mit meist abrupten Ubergangen. Der Wert in der linken oberen
Ecke entspricht dem Gleichanteil [Sch13]. Diese Effekte konnen auch in Abbildung
2.5 beobachtet werden. Die vertikalen Ortsfrequenzen steigen von links nach rechts
an und die horizontalen Ortsfrequenzen von oben nach unten. Allerdings kann allein
durch die DCT noch keine Kompression erreicht werden.
3https://upload.wikimedia.org/wikipedia/commons/2/24/DCT-8x8.png vom 05.08.2016
2.1. GRUNDLAGEN DER HYBRIDEN VIDEOCODIERUNG 11
2.1.4 Quantisierung
-4 -3 -2 -1 1 2 3 4
-4
-3
-2
-1
1
2
3
4
Abbildung 2.6: Gerade gleichformige Quantisierungskennlinie. Die Differenz zwi-schen orangener und blauer Linie entspricht dem Quantisierungsfehler
Die skalare Quantisierung weist jedem einzelnem Wert x einen quantisierten Wert
xq zu. Je nach Anzahl der zur Verfugung stehenden Bits gibt es 2n Stufen (n = An-
zahl Bits). Mit einer großeren Anzahl an Quantisierungsstufen ist der Rekonstruk-
tionsfehler, der bei der Zuweisung von xq zu y entsteht, geringer. In Abbildung 2.6
ist ein Beispiel fur eine skalare Quantisierung zu sehen. Die horizontale Achse ent-
spricht x und die vertikale Achse dem quantisierten Wert xq. Die Differenz zwischen
den beiden Linien entspricht dem Quantisierungsfehler.
Der Quantisierungsparameter (QP) wird in Videostandards eingesetzt, um die Qual-
titat eines Bildes an Hand einer Zahl einstellbar zu machen. Je kleiner der QP ist,
desto besser ist die Qualitat des Bildes. Durch die großere Anzahl der Stufenzahl ist
die benotigte Datenmenge viel großer. Die objektive Beschreibung der Bildqualititat
wird in der Bild- und Videocodierung mit Hilfe des Spitzen-Signal-Rausch-Verhaltnis
(engl. Peak-Signal-to-Noise-Ratio (PSNR)) beschrieben.
12
Die mathematische Berechnung des PSNR ist in Formel (2.2) zu finden [Kau16].
PSNR [dB] = 10 · log10A2
σ2e
(2.2)
mitσ2e = Pe − µ2
e
furµe = 0 : σ2e =
1
MN
M−1∑m=0
N−1∑n=0
(x (m,n)− xq (m,n))2
σ2e entspricht der mittleren quadratischen Abweichung (MSE, mean squared error)
des quantisierten Bildes zum Originalbild. A ist der maximalen Amplitude des Origi-
nalsignals (meistens gilt A = 255). M spiegelt die Breite des Bildes wider und N die
Hohe des Bildes.
2.1.5 Lauflangencodierung
Die Lauflangencodierung kann mit Hilfe eines Zig-Zag-Musters (siehe Abbildung
2.7), die Vorteile der DCT und der anschließenden Quantisierung optimal nutzen.
Beim Zig-Zag-Muster wird aus einer zweidimensionalen Matrix ein eindimensiona-
ler Vektor. Eine Umwandlung ist notwendig, weil der Bitstrom ebenfalls nur eine
Dimension hat.
In Kapitel 2.1.3 wurde der Zusammenhang festgestellt, dass der Anteil der hohen
Frequenzen4, die innerhalb eines Bildes auftreten, sehr gering sind. Durch die dar-
auf folgende Quantisierung werden Koeffizienten, deren Betrag knapp uber Null
liegt, zu Null quantisiert. Das Zig-Zag-Muster arbeitet die Diagonalen einer Matrix
nacheinander ab. Durch den Vorteil der DCT und Quantisierung konnen beim Zig-
Zag-Muster viele Nullen hintereinander erfasst werden.
4Die Frequenzen der Koeffizienten nehmen diagonal von der linken oberen Ecke bis zur rechten
unteren Ecke zu.
2.1. GRUNDLAGEN DER HYBRIDEN VIDEOCODIERUNG 13
Abbildung 2.7: Reihenfolge eines Zig-Zag-Scans, rechte Abb. [Kau16]
Die Lauflangencodierung greift diese Eigenschaft auf und gibt in der Codierung an,
wie viele Nullen zwischen zwei Zahlen, die ungleich Null sind, auftreten. Nach der
Lauflangencodierung wird mit einer Entropiecodierung fortgefahren.
2.1.6 Bewegungsschatzung und Bewegungskompensation
Die bisher vorgestellten Methoden der hybriden Videocodierung beschranken sich
auf ein einzelnes Bild. Diese Art der Codierung wird Intra-Codierung genannt. Die
Schatzung von Bewegungsvektoren kann eine hohere Kompression fur Videose-
quenzen erreichen, da neben der ortlichen Redundanz auch die zeitliche Redun-
danz minimiert wird.
In Abbildung 2.8 ist das sogenannte Block-Matching zu sehen. Dieses Prinzip der
Bewegungsschatzung stutzt sich auf die Annahme, dass benachbarte Punkte im
Bild die selbe Bewegungsrichtung haben. Fur die Bewegungsvektoren werden die
Luminanzwerte eines Bildes betrachtet.
14
Abbildung 2.8: Darstellung einer blockbasierten Bewegungsschatzung, [Str09]
Das Bild wird in gleich große Blocke aufgeteilt und fur jeden Block wird im Referenz-
bild nach dem am besten passenden Block gesucht. Dabei muss zwischen einer
maximal genauen Bewegungsschatzung und wenig Aufwand bei der Suche nach
dem besten Bewegungsvektor abgewogen werden. Diese Abwagung ist fur die De-
codierung eines Videos nicht von Relevanz, da bei der Encodierung diese Suche
ubernommen wird. Die Schatzung eines Bewegungsvektors wird in der Regel von
einem zeitlich fruheren Bild pradiziert. Bei einer bidirektionalen Pradiktion wird die
Vorwartspradiktion mit einer Ruckwartspradiktion erganzt [Str09].
Abbildung 2.9: Subpixel-Interpolation mit halben Pixeln [Kau16]
2.1. GRUNDLAGEN DER HYBRIDEN VIDEOCODIERUNG 15
Mit Hilfe einer Subpixelschatzung kann die Bewegungsschatzung beim Block-Matching
verbessert werden. Das heißt neben den Verschiebungen um ganze Bildpunkte, gibt
es Verschiebungen um halbe oder viertel Pixel. In Abbildung 2.9 ist ein Darstellung
mit halben Pixeln zu sehen.
2.1.7 Intra-Pradiktion
Abbildung 2.10: Intra-Pradiktion von [4 x 4]-Blocken [Str09]
Bisher wurde die zeitliche Pradiktion von Blocken betrachtet. Bei der ortlichen Pradik-
tion von Blocken gibt es bei dem H.264-Videostandard neun verschiedene Richtun-
gen fur die Pradiktion, wie in Abbildung 2.10 zu sehen ist. Die Pradiktion wird aus
Blocken vorgenommen, die sich entweder uber dem betrachtetem Block oder links
von dem betrachteten Block befinden. Die genaue Berechnung der einzelnen Mo-
di kann in [Str09] nachgelesen werden. Der Modus 2 ist ebenfalls als DC-Modus
bekannt, weil bei dieser Art der Pradiktion alle Pixel den gleichen Wert haben. Bei
Modus 0 wird eine vertikale Voraussage und bei Modus 1 eine horizontale Pradikti-
on der Pixel ausgefuhrt. Die Modi 3 und 4 setzen eine diagonale Pradiktion der Pixel
ein.
16
2.1.8 In-Loop-Filter
In Abbildung 2.11 ist ein extremes Beispiel fur Blocking-Artefakte zu sehen. Diese
Blockbildung entsteht durch Quantisierung mit sehr wenigen Stufen. Um die Qua-
litat des Bildes zu steigern und die Artefakte zu minimieren setzt man sogenannte
Deblocking Filter ein. Die Filter werden an den horizontalen und vertikalen Block-
grenzen angewendet.
Abbildung 2.11: Einfluss von Blockartefaktenlinks: Original-Bild, rechts: Bild mit Blockartefakten durch Kompression
Die kunstlichen Blockkanten, die durch Quantisierung auftreten konnen, sollen ge-
filtert werden. Allerdings gibt es naturliche Blockkanten, bei denen die Differenz der
Bildpunkte viel großer ist, als der Quantisierungseffekt. Diese naturlichen Block-
kanten sollen nicht nachbearbeitet werden. Die Toleranz zwischen naturlicher und
kunstlicher Blockkante, kann durch die Starke der Filterung an den Kanten (engl.
Boundary Strength (BS)) variiert werden. Die Starke kann in einem Bereich von null
bis vier eingestellt werden. Bei einer Filter-Starke von null wird keine Filterung vor-
genommen.
2.1. GRUNDLAGEN DER HYBRIDEN VIDEOCODIERUNG 17
Abbildung 2.12: Ausschnitt eines Bildsignals an einer Blockgrenze [Str09]
Ein Beispiel fur eine Blockgrenze kann in Abbildung 2.12 gesehen werden. Durch
das Einsetzen von Deblocking-Filtern steigt die subjektive Qualitat und bei qualitativ
gleicher Qualitat sinkt die Bitrat ungefahr um 5 bis 10 %. Allerdings steigt durch die
Filterung der Rechenaufwand des Decoders enorm und kann bis zu einem Drittel
des Rechenaufwands eines H.264-Decoders ausmachen [Str09].
Abbildung 2.13: Im linken Bild ist das Original-Bild und im rechtem Bild ist der Ein-fluss durch Ringing-Artefakte zu sehen 5
Der Videocodec HEVC bietet neben dem Deblocking-Fiter auch einen Sample Ad-
aptive Offset Filter (SAO-Filter), der Effekte wie Ringing minimieren soll. Ringing
entsteht vor allem an scharfen Kanten, wie in Abbildung 2.13, zu sehen ist. Der SAO-
Filter setzt zur Minimierung von Ringing zwei verschiedene Verfahren ein: Zum einen
gibt es den Edge Offset (EO) und zum anderen den Band Offset (BO) [SBS14].5Quelle: https://en.wikipedia.org/wiki/Ringing artifacts, 10.09.2016
18
2.2 Merkmale der Videostandards
Alle in dieser Arbeit behandelten Videostandards haben circa 90 Merkmale, au-
ßer das Modell des H.263 Codecs, welches 21 Merkmale beinhaltet. Die einzelnen
Merkmale konnen den Tabellen A.3, A.4, A.5 und A.6 aus dem Anhang entnom-
men werden. Eine Erklarung der einzelnen Merkmale kann aus folgenden Quellen
[Bow16], [HWD+16] und [Yon16] entnommen werden.
Fur ein besseres Verstandnis werden die Merkmale in folgende sechs Kategorien
aufgeteilt [HWD+16]:
• Offset (OFFSET)
• Intraframe Pradiktion (INTRA)
• Interframe Pradiktion (INTER)
• Transformation (TRANS)
• Codierung (COEFF)
• In-Loop Filter (ILF)
Das erste Merkmal (= Offset) der merkmalbasierten Modelle reprasentiert die Ener-
gie, die fur das Starten und das Beenden des Decodierprozesses notwendig ist. Die-
se Prozesse mussen nur ein einziges Mal fur ein Video ausgefuhrt werden, deshalb
ist fur dieses Merkmal standardmaßig eine Eins gesetzt. Neben dem Offset sind die
Anzahl der Bilder (z.B. I-Frame, P-Frame oder B-Frame) oder die Anzahl der Blocke
mogliche Merkmale dieser Kategorie.
Die Merkmale der INTRA Kategorie entsprechen allen Prozessen, die bei einer
Intraframe-Pradiktion fur einen Block ausgefuhrt werden.
2.2. MERKMALE DER VIDEOSTANDARDS 19
Durch Messungen konnte gezeigt werden, dass kleine Blocke im Vergleich zu großen
Blocken mehr Energie brauchen [HWD+16].
Ahnlich wie bei Intraframe Pradiktion (INTRA) Merkmalen werden bei Interframe
Pradiktion (INTER) Merkmalen die Prozesse nach verschiedenen Blockgroßen ein-
geteilt. Erganzt wird diese Kategorie um Merkmale der Bewegungsschatzung. Ne-
ben der Anzahl der zu pradizierenden Pixel werden genauso die Anzahl der Subpixel
(engle. Fractional Pel) gezahlt.
Die Inverse Diskrete Cosinus Transformation (IDCT) wird in dieser Kategorie als
Hauptfunktion angenommen. Hier wird, wie bei den Intra- und Inter-Pradizierten
Merkmalen, die Blockgroße beachtet.
Die Koeffizienten der Transformation werden, je nach Anzahl der benotigten Bits,
gezahlt und in die Kategorie COEFF eingeteilt.
Abschließend werden mit In-Loop Filtern (ILF) Merkmale behandelt, die versuchen
Blockartefakte mit Hilfe von Interpolation oder anderen Methoden zu minimieren.
Dies verbessert das PSNR und gleichzeitig entsteht ein subjektiv besserer Eindruck
der Bilder.
20
2.3 Das merkmalbasierte Modell
Abbildung 2.14: Ablauf der Evaluation [HSR+16] in vier Schritten: Bitstromanalyse,Messung der Edec, Training und Validation
Bevor die einzelnen Koeffizienten des merkmalbasierten Modelles bestimmt wer-
den konnen, mussen vier verschiedene Schritte erledigt werden, die in Abbildung
2.14 zu sehen sind. Zu Beginn werden die Haufigkeiten der einzelnen spezifischen
Merkmale (nf ) der Bitstrome bzw. der Videosequenzen bestimmt. Zudem muss die
Energie, die fur das Decodieren der jeweiligen Bitstrome notwendig ist, ermittelt wer-
den (vgl. Abbildung 2.16). Dann werden die spezifischen Energien uber das Training
und der ε uber eine Validierung herausgefunden. Das Training und die Validierung
werden in dieser Arbeit mit Hilfe einer 10-fachen Kreuzvalidierung durchgefuhrt. Im
Folgenden werden die einzelnen Schritte der Evaluation naher erlautert.
2.3. DAS MERKMALBASIERTE MODELL 21
2.3.1 Messungen
Abbildung 2.15: ZES ZIMMER LMG95 6
Abbildung 2.16: Messaufbau mit Span-nungsversorgung [HSR+16]
Die Decodierenergien wurden per Messung, wie in [HWK15] beschrieben, mit ei-
nem 1-Phasen Leistungsmessgerat ZES Zimmer LMG95 auf einem Pandaboard
bestimmt. In Abbildung 2.15 ist das Messgerat zu sehen und in Abbildung 2.16 ist
der Schaltaufbau der Messung zu sehen. V0 entspricht der Spannungsversorgung
und DEC dem decodierendem Gerat.
Die evaluierten Videosequenzen sind im Anhang A.1 in Tabelle A.1 und Tabelle A.2
zu finden. Die Unterteilung in Kategorien wird fur die Kombination von Merkmalen
von Bedeutung sein. In Tabelle 2.2 sind die Einstellungen im Encoder fur die ein-
zelnen Videostandards zu sehen. Aufgelistet werden die verwendete Software des
Encoders, die Konfiguration der Software, die verschiedenen eingesetzten Quanti-
sierungsparameter und die Anzahl der untersuchten Bitstrome.
6http://www.zes.com/var/zes/storage/images/produkte/praezisions-leistungsmessgeraete/lmg95/1267-
18-ger-DE/LMG95 zes w 800.png , 10.08.2016
22
H.263 H.264 HEVC VP9
Encoder TMN-2.0 JM-18.4 HM-16.4 lipvpx
Konfigurierung main baseline intra One-pass coding
PB main lowdelay Two-pass coding
extended lowdelay P
randomaccess
QP 5,10,15,20, 12,22,32,42 10,20,30,40 5,20,44,59
25,30,35
Bitstrome 350 408 544 272
Tabelle 2.2: Einstellung der Videosequenzen und Encoder [HWD+16]
In Abbildung 2.17 ist das Messergebnis einer Decodierung dargestellt. Die grune
Linie charakterisiert den Offset eines Mikrocontrollers (Leistung im Leerlauf), der
durch verschiedene Hintergrundprozesse oder Aktualisierungen im Speicher leicht
variiert. Mit Hilfe von Gleichung (2.3) [HSR+16] kann die Dekodierenergie bestimmt
werden.
Abbildung 2.17: Die Leistung bei der Decodierung eines Videos zwischen 0,5 s und22 s wird durch die blaue Linie dargestellt. Die Leerlauf-Leistung wird durch gruneLinie dargestellt [HSR+16]
Edec =
∫ T
t=0
Pdec (t) dt−∫ T
t=0
Pidle (t) dt (2.3)
2.3. DAS MERKMALBASIERTE MODELL 23
2.3.2 Bitstrommerkmale
Edec = E0 +∑f=2
ef · nf (2.4)
Alle merkmalbasierten Modelle haben das Ziel die Differenz zwischen der geschatz-
ten Energie Edec und der tatsachlich gemessenen Energie Edec (Kapitel 2.3.1) mini-
mal zu halten. Das in Gleichung (2.4) vorgestellte Modell stellt die Grundidee des
Modells vereinfacht dar. Fur die Schatzung der Decodierenergie werden die spezifi-
schen Energien (efeature) der Merkmale mit den Haufigkeiten des Auftretens (nfeature)
multipliziert. Der Offset ist bei jedem merkmalbasiertem Modell als Merkmal enthal-
ten, deshalb beginnt f bei zwei.
Ein Bitstream-Merkmal ist als untergeordneter Prozess, der wahrend des Decodie-
rens ausgefuhrt wird, definiert. Dabei ist ein einzelner Prozess nicht auf eine einzige
Ausfuhrung beschrankt und benotigt die oben definierte spezifische Energie (ef ).
Diese ist bei allen Ausfuhrungen nahezu konstant. Mit Hilfe von Software im Deco-
der kann bestimmt werden, wie oft welcher bzw. mit wie vielen genutzten Bits ein
Prozess ausgefuhrt wird. Diese quantitative Zahl entspricht dem oben genannten nf
[HSR+16]. Wie oft ein In-Loop-Filter mit einer spezifischen Starke eingesetzt wurde,
kann ein mogliches Merkmal sein. Ein anderes kann angeben, wie viele Koeffizien-
ten nach DCT und Quantisierung ungleich Null sind.
Die in Abbildung 2.18 dargestellte lineare Regression (= blaue Linie) lasst das Ziel,
die minimale quadratische Abweichung zu erreichen, erkennen. Der Punkt bei X=78
verschiebt die Kurve der linearen Regression nach oben, da ein Fehler an diesem
Punkt eine großere Auswirkung hat. Die Steigung a der orangen Gerade wurde
durch die Division des Mittelwertes von x durch den Mittelwert von y bestimmt.
24
-
0 20 40 60 80 100
X
0
10
20
30
40
50
60
70
80
90
Y
Lineare Regression
lineare Regression
y = a · x
Abbildung 2.18: Beispiel fur eine lineare Regression
2.3.3 Koeffizientenbestimmung und Kreuzvalidierung
Modellparameter
Fur die Bildung eines Modelles mit n-Dimensionen wird die Funktion ’lsqcurvefit’ aus
Matlab eingesetzt. Diese Funktion entspricht der Methode der kleinsten Quadrate
und findet Losungen sowohl fur nicht-lineare, als auch fur lineare Optimierungspro-
bleme. In Gleichung (2.5) [Mat] ist die mathematische Definition des Problems zu
sehen.
minx||F (x,x)− y||22 = min
x
∑i
(F (x,xi)− yi
yi
)2
(2.5)
2.3. DAS MERKMALBASIERTE MODELL 25
Tabelle 2.3: Modell zu H.263 mit spezifischen Energien
In Tabelle 2.3 sind die spezifischen Energien der Merkmale fur den Videostandard
H.263 zu sehen. Dieser Videocodec hat mit 21 Merkmalen die wenigsten Merkmale
und ist fur die Darstellung der Probleme des allgemeinen Modells am besten geeig-
net. Bei neun von 21 Merkmalen fallt auf, dass diese negative spezifische Energie
haben. Im physikalischen Sinne gibt es keine negative Energie, weil es keinen Pro-
zess gibt, der mehr Energie bei seiner Durchfuhrung erhalt, als eingesetzt wurde.
Negative Energie widerspricht folglich dem Energieerhaltungssatz, deshalb wird in
dem Modell von spezifischen Energien ausgegangen.
Spezifische Großen haben immer einen Bezug auf eine gemeinsame Große. Die
elektrische Energie ist die Bezugsgroße des merkmalbasierten Modells und diese
wird in Joule angegeben. Eine negative spezifische Energie eines Merkmals be-
deutet im Kontext eines Decoders, dass der Prozess weniger elektrische Energie
26
umwandelt, als ein anderes Merkmal mit positiver spezifischer Energie oder weni-
ger negativer spezifischer Energie. Wenn die Merkmale richtig interpretiert werden
und die Wechselwirkungen den reellen Umstanden entsprechen, dann kann da-
durch ’Strom gespart’ 7werden [HSR+16].
10-fache Kreuzvaldierung
Abbildung 2.19: Illustration einer 10-fachen Kreuzvaldierung
Eine sinnvolle Methode, die die Menge aller Sequenzen in Trainings- und Testdaten
unterteilt, bildet die 10-fache Kreuzvalidierung. Bei dieser wird die komplette Daten-
menge in zehn moglichst gleich große Untermengen aufgeteilt, die jeweils disjunkt
sind. Die Aufteilung der Untermengen erfolgt zufallig, das heißt jede Sequenz ist in
genau einer Untermenge. Aus jeweils neun Untermengen werden in jeder Iteration
die Koeffizienten des merkmalbasierten Modelles bestimmt und auf die verbleibende7Wissenschaftlich Korrekt: weniger elektrische Energie wird umgewandelt
2.3. DAS MERKMALBASIERTE MODELL 27
Untermenge wird der mittlere Schatzfehler evaluiert. Dies wird zehn Mal wiederholt
und die Fehler der einzelnen Iterationen uber alle Iterationen gemittelt. Eine Ver-
anschaulichung der 10-fachen Kreuzvalidation ist in Abbildung 2.19 zu sehen. Mit
Hilfe der Kreuzvalidierung kann die Gefahr einer Uberanpassung des Modelles mini-
miert werden und gleichzeitig jede Sequenz genau einmal zur Evalierung eingesetzt
werden.
Der mittlere Schatzfehler ε
Die Berechnung des mittleren Schatzfehlers (ε) wird bei allen Videostandards wie
in Gleichung (2.7) und der relative Schatzfehler (ε) wie in Gleichung (2.6) berechnet
[HSR+16]. Der mittlere Schatzfehler entspricht dem gemittelten relativen Schatzfeh-
ler, bei demm dem Index des Bitstroms und M der gesamten Anzahl der evaluierten
Bitstrome entspricht.
ε =Edec − Edec
Edec
(2.6)
ε =1
M
M∑m=1
|εm| (2.7)
28
2.3.4 Das erweiterte merkmalbasierte Modell
Zusammenfassend kann nun das allgemeine merkmalbasierte Energiemodell (2.4),
wie in Gleichung (2.8) erweitert werden.
Edec = E0 +∑
OFFSET
eOFFSET · nOFFSET
+∑
INTRA
eINTRA · nINTRA
+∑
INTER
eINTER · nINTER
+∑
TRANS
eTRANS · nTRANS
+∑
COEFF
eCOEFF · nCOEFF
+∑ILF
eILF · nILF
(2.8)
KAPITEL 3. EINFLUSS DER TRAININGSDATEN 29
Kapitel 3
Einfluss der Trainingsdaten
Der Einfluss der Trainingsdaten wurde durch die Auswahl einer bestimmten gemein-
samen Eigenschaft, wie zum Beispiel QP oder Konfiguration des Codierers, reali-
siert. Die Daten des HEVC-Modells wurden fur die Evaluation ausgewahlt, da fur
diesen Videostandard am meisten Messdaten vorliegen. Die Trainingsdaten besit-
zen folglich nur die gleichen Eigenschaften und werden in Abbildung 3.1 durch Bar1
und Bar3 reprasentiert. Die Balken werden bis zu einem ε von 10% dargestellt, weil
ein Modell mit einem ε jenseits von 30% keine Aussagekraft und im Bereich zwi-
schen 10% und 30% keine Werte hat.
Das Modell mit allen Merkmalen (Bar1 und Bar2) hat bei der Validierung des kom-
pletten Datensatzes nur einmal weniger als 30% fur ε ergeben, folglich ist bei diesen
der Einfluss der Trainingsdaten gering.
Das verkleinerte Modell mit 17 Merkmalen hat bei der Art der Codierung ebenfalls
keine guten Schatzfehler, allerdings sind die Schatzfehler der Trainingsdaten, die
auf einen gemeinsamen Quantisierungsparameter zuruckgreifen, viel besser. Die
mittleren Schatzfehler aller Sequenzen bewegen sich zwischen 6% und 10 %.
Bei genauerer Betrachtung der relativen normierten Energien aus Abbildung 3.2
werden die guten Schatzungen fur die Quantisierungsparameter untermauert. Der
großte Teil der geschatzten Energien befindet sich im Bereich zwischen der 0,9- und
1,1-fachen Energie, der gemessen Energie einer Sequenz.
30
QP10 QP20 QP30 QP40 Intra Lowdelay Lowdelay_P Randomaccess
Mitt
lere
r S
chät
zfeh
ler
[%]
0
1
2
3
4
5
6
7
8
9
10Bar1Bar2Bar3Bar4
Abbildung 3.1: Evaluation des Einflusses der Trainingsdaten auf den mittlerenSchatzfehler ε. Bei Bar1 und Bar2 wurde auf alle Merkmale des HEVC-Modells eva-luiert. Bar3 und Bar4 wurde auf Modell mit Merkmalen [1, 6, 19, 22, 32, 35, 52, 54,60, 62, 67, 70, 75, 83, 84, 85, 87] evaluiert.Bar1, Bar3: ε der TrainingsdatenBar2, Bar4: ε aller Daten
Somit kann fur einen einzelnen Quantisierungsparameter eine gute Allgemeingultig-
keit angenommen werden. Zwar sind die mittleren Schatzfehler bei den unterschied-
lichen Konfigurationen des Videocodecs geringer, allerdings gilt dies nicht fur die
mittleren Schatzfehler der kompletten Daten. Hier treten Fehler von bis zu 408% auf.
Die hohen Fehler aus der Konfiguration des Codecs lassen sich durch deren Eigen-
schaften erklaren. Bei der Konfiguration ’Intra’ werden alle Pradiktion ausschließlich
Intra-Pradiziert und daher konnen Inter-Pradizierte Merkmale nicht berechnet wer-
den.
Von einer schlechten Qualtitat des Videos kann nicht auf eine schlechte Qualitat
der Schatzung zuruckgeschlossen werden. In Abbildung 3.1 hat der QP40 die beste
Schatzung fur die gesamten Daten.
31
Sequenzen0 50 100 150 200 250 300 350 400 450 500
Êde
c /
Ede
c
0
0.2
0.4
0.6
0.8
1
1.2
1.4
1.6
1.8
2
QP10QP20QP30QP40intralowdelaylowdelay_Prandomaccess
Abbildung 3.2: Relative Energien ˆEdec
Edecder einzelnen Sequenzen werden nach deren
Wert aufsteigend sortiert, als Datensatz wird das verkleinertes HEVC-Modell ausAbbildung 3.1 eingesetzt
Mit einem QP von 40 konnen schnellere Decodierungen ausgefuhrt werden, als
mit einem niedrigerem QP. Aus diesen Ergebnissen lasst sich schließen, dass bei
vielen Merkmalen moglichst viele verschiedene Eigenschaften und Konfigurationen
gemessen werden sollen. Durch Variation der Trainingsdaten ist ersichtlich, dass
eine große Variation von verschieden Videosequenzen und Einstellungen der ein-
zelnen Videosequenzen (z.B. Anzahl der Bilder, QPs) sehr wichtig fur ein gutes
merkmalbasiertes Modell sind. Die guten Ergebnisse der Quantisierungsparame-
ter erlauben die Vereinfachung bei Messungen, die entweder von der Zeit her oder
durch den Speicherplatz begrenzt sind. Fur eine moglichst schnelle Messung ist
es erlaubt einen hohen Quantisierungsparameter zu wahlen. Bei einem QP von 40
wurde bei den Messungen die besten Ergebnisse erreicht.
32 KAPITEL 4. ANSATZE DER MERKMALSELEKTION
Kapitel 4
Ansatze der Merkmalselektion
Taglich werden die Datenmengen der Datenbanken des Internets großer. Alle 20
Monate verdoppelt sich die gesamte Datenmenge der Datenbanken des Internets
[WFH11]. Bei einer so gigantischen Datenflut wird die Differenz zwischen der Gene-
rierung und dem Verstehen der Daten immer großer. Mit Hilfe von Computern kann
aus riesigen Datensatzen innerhalb von kurzer Zeit viel Information gewonnen wer-
den. Dafur sind allerdings spezielle Algorithmen notwendig, die Datenbanken auf
spezielle Eigenschaften analysieren konnen. Die Selektion von Merkmalen spielt
hierbei eine große Rolle, denn durch die Reduktion von Datenmengen kann die
Genauigkeit des Modells gesteigert und vor allem Speicherplatz gespart werden.
Zudem ist ein Modell mit weniger Merkmalen leichter verstandlich und ubersichtli-
cher, als ein Modell mit sehr vielen Merkmalen [Mla06].
Generell kann zwischen einer Kombination von Merkmalen (engl. Feature Merging
(FM)) und einer Selektion von Merkmalen zu einer Untermenge (engl. Feature Sub-
set Selection (FSS)) unterschieden werden. Bei der FSS wird versucht irrelevante
und redundante Merkmale zu entfernen und relevante Merkmale zu entdecken. Ziel
der FSS ist es eine moglichst optimale Schatzung des Modells zu erreichen. In
Abbildung 4.1 ist eine Unterscheidung der Merkmale nach deren Einfluss auf das
Modell zu sehen. Die exakten Anteile der einzelnen Kategorien konnen variieren
und sollen ein grobes Verstandnis geben.
33
Irrelevante Merkmale sind unwichtig fur die Qualitat1 des Modells oder verschlech-
tern den Schatzfehler. Redundante Merkmale sind zwar ebenfalls unwichtig in Be-
zug auf die Qualitat des Modells, allerdings haben diese keinen negativen Einfluss
auf die Qualitat. Relevante Merkmale sind essenziell wichtig fur das merkmalbasier-
te Modell. Eine optimales Modell wurde nur aus relevanten und gleichzeitig nicht-
redundanten Merkmalen bestehen. Die Vernachlassigung von relevanten Variablen
wird als Unteranpassung (engl. underfitting) bezeichnet und bei zu vielen Variablen
besteht die Gefahr der Uberanpassung (engl. overfitting) [BEPW16].
33%
33%
20%
14%
Irrelevante MerkmaleSchwach relevante und redundante MerkmaleSchwach relevante nicht-redundante MerkmaleStark relevante Merkmale
Abbildung 4.1: Veranschaulichung der Relevanz, Redundanz und Irrelevanz vonMerkmalen [BCSMAB15]
Nachfolgend werden verschiedene Suchstrategien und Ansatze der Merkmalselek-
tion vorgestellt. Abschließend wird kurz die Kombination von Merkmalen erklart.
1Qualitat bezieht sich im Zuge dieser Arbeit auf den mittleren Schatzfehler
34
4.1 Suchstrategien und Ansatze der Feature Subset
Selection
4.1.1 Suchstrategien
Die nun betrachteten Ansatze konnen durch ihre Suchstrategie unterschieden wer-
den. Bei einer Vorwarts-Selektion (engl. Forward Selection (FS)) wird mit einer lee-
ren Menge an Merkmalen begonnen, die Schritt fur Schritt ein oder mehrere Merk-
male hinzufugt. Bei einer Ruckwarts-Eliminierung (engl. Backward Elimination (BE))
wird mit einer Menge, die aus allen Merkmalen besteht, begonnen. Diese Menge
wird iterativ verkleinert. Eine Kombination aus FS und BE bildet die Schrittweise-
Vorwarts-Selektion (engl. Forward Stepwise Selection (FStS)) oder die Schrittweise-
Ruckwarts-Eliminerung (engl. Backward Stepwise Elimination (BStE)). Bei einer 2-
1-FStS wird zweimal hintereinander ein Merkmal hinzugefugt und danach ein Merk-
mal entfernt. Analog dazu verhalt sich eine 2-1-BStE, die zuerst zwei Merkmale
entfernt und anschließend wieder ein Merkmal hinzugefugt. Die Anzahl der Merk-
male, die hinzugefugt/entfernt werden, kann beliebig gestaltet werden. Die funfte
Suchmoglichkeit, die in dieser Arbeit nicht weiter betrachtet wird, bildet die Random
Mutation. Bei dieser Suchstrategie wird eine zufallige Untermenge an Merkmalen
ausgewahlt und dann zufallig Merkmale hinzugefugt oder entfernt bis eine vorher
bestimmte Anzahl an Iteration erreicht oder ein zuvor definiertes Kriterium erfullt
wird.
4.1.2 Ansatze der FSS
Wrapper
Beim Wrapper wird auf jede mogliche Teilmenge ein Lernalgorithmus angewen-
det und eine Untermenge mit dem besten Schatzfehler wird ausgewahlt. Da kei-
ne Eigenschaften des Datensatzes betrachtet werden, wird die Suche wie bei ei-
4.1. SUCHSTRATEGIEN UND ANSATZE DER Feature Subset Selection 35
ner ’Black-Box’ ausgefuhrt. Durch das schrittweise Ausprobieren der Untermengen
braucht der Wrapper-Ansatz verhaltnismaßig lange um kleinere Untermengen zu
bestimmen. Außerdem kann das Modell so stark angepasst werden, dass es Ube-
ranpassung erreicht [BCSMAB15]. In Kapitel 5.1 werden alle Algorithmen erklart,
die den Wrapper-Ansatz anwenden.
Filter
Beim Filter-Ansatz werden Eigenschaften des Datensatzes als Kriterium fur die Re-
levanz eines Merkmals gewahlt. Die Selektion wird vor dem Training ausgefuhrt,
deshalb kann bei einem Filter-Ansatz davon ausgegangen werden, dass dieser we-
nig Rechenaufwand im Vergleich zu einem Wrapper-Ansatz hat. Durch die Selektion
aus den Eigenschaften des Datensatzes ist eine gute Verallgemeinerung geboten,
allerdings konnen relevante Merkmale aussortiert werden.
r =
n ·n∑
i=1
(xi · yi)−n∑
i=1
xi ·n∑
i=1
yi√√√√(n · n∑i=1
x2i −(
n∑i=1
xi
)2)·
(n ·
n∑i=1
y2i −(
n∑i=1
yi
)2) (4.1)
In diesem Fall wurde der Filter-Ansatz mit Hilfe des Maßkorrelationskoeffizient nach
Pearson angewendet. Dieser wird wie in Formel (4.1) [Z88] berechnet und ist zwi-
schen -1 und 1 normiert. In Abbildung 4.2 sind mogliche Grafiken fur verschiedene
Maßkorrelationskoeffizienten nach Pearson zu sehen. Zwar konnen mit dem Korre-
lationskoeffizienten nicht-lineare Zusammenhange nicht erfasst werden, allerdings
wird hier angenommen, dass nur lineare Abhangigkeiten vorhanden sind. Ferner
mussten die Merkmale fur die Berechnung nach Pearson normalverteilt sein, aber
diese Bedingung wird ebenso vernachlassigt und als gegeben angenommen.
36
Abbildung 4.2: Pearson-Korrelationskoeffizient2
Bei einem Maßkorrelationskoeffizienten von 1 bzw. -1 kann davon ausgegangen
werden, dass zwei Merkmale direkt proportional bzw. indirekt proportional zueinan-
der sind. Wird ein Merkmal entfernt, dann ist das andere Merkmal nach der Validie-
rung entsprechend proportional mehr. Somit ’verliert’ der Datensatz keine Informati-
on durch die Selektion des Merkmals. Die Selektion von Merkmalen wird folgender-
maßen ausgefuhrt: zuerst werden alle Merkmale, die in Matlab einen Korrelations-
koeffizienten von NaN haben, aussortiert. Diese Merkmale haben keinen Maßkor-
relationskoeffizienten, weil deren Werte bei allen Sequenzen gleich groß sind. Eine
Ausnahme bildet der Offset, weil dieser absichtlich immer gleich groß ist. Sind diese
Merkmale aussortiert, wird nach dem betragsmaßig großten Korrelationskoeffizien-
ten gesucht und dieser wird nun aussortiert.
Embedded
Der Embedded-Ansatz selektiert Merkmale wahrend des Trainings aus und ist ahn-
lich zum Wrapper-Ansatz. Dieser Ansatz wird in der Arbeit nicht weiter verfolgt.
2https://upload.wikimedia.org/wikipedia/commons/0/02/Correlation examples.png, 22.08.2016
4.2. KOMBINATION VON MERKMALEN 37
4.2 Kombination von Merkmalen
Die Kombination von einzelnen Merkmalen zu einem neuen Merkmal (engl. Feature
Merging (FM)) wurde mit Hilfe der in Kapitel 2.2 eingefuhrten Kategorien durch-
gefuhrt. Die Kombination stellt eine Alternative zum Entfernen von Merkmalen dar.
Der Vorteil der Kombination besteht in dem Verfahren selbst, denn es geht keine
Information aus den Merkmalen verloren.
Merkmale aus den Kategorien INTRA, INTER und TRANS konnen untereinander
uber die eigene Kategorie hinaus kombiniert werden, wenn diese eine spezifische
Blockgroße haben. Ansonsten ist die Kombination auf Merkmale aus der gleichen
Kategorie beschrankt. Merkmale der Kategorie COEFF wurden zusammengefasst,
falls sie eine ahnliche Funktion haben.
Eine Kombination von Merkmalen mit spezifischen Blockgroßen wird durch eine ge-
wichtete Addition durchgefuhrt. Wenn die Blocke eine unterschiedliche Große ha-
ben, dann wird der großere Block mit dem Faktor multipliziert, so oft er in den klei-
neren Block passt. Bei einem [4 x 4]-Block und einem [16 x 16]-Block werden die
gezahlten Daten des Merkmals mit der großeren Blockgroße mit 16 3 multipliziert.
Schließlich werden die beide Merkmale addiert. Bei Merkmalen ohne Blockgroße
werden sie ohne Gewichtung addiert.
In Kapitel 5.2 werden verschiedene Alghorithmen vorgestellt, die im Zuge dieser
Arbeit entstanden sind.
3Rechnung: (16 · 16) / (4 · 4)
38KAPITEL 5. ALGORITHMEN DER KOMBINATION UND SELEKTION DER
MERKMALE
Kapitel 5
Algorithmen der Kombination und
Selektion der Merkmale
In diesem Kapitel werden die einzelnen Algorithmen aufgezeigt und erste Ergebnis-
se gezeigt. Zuerst werden die Algorithmen der Selektion erlautert, die am umfang-
reichsten sind.
5.1 Algorithmen der Selektion
Die FSS fur den Filter-Ansatz wurde bereits im vorherigen Kapitel erklart, deshalb
beschranken sich die folgenden Ansatze auf den Wrapper-Ansatz. Eine Außnahme
bildet der ’Brute-Force’-Ansatz, dieser wurde allerdings nur fur den H.263 Codec
angewendet.
Brute-Force
Die Brute-Force-Methode ist die einfachste Methode, um ein optimales Modell zu
finden. Diese Methode braucht allerdings im Gegenzug die meiste Rechenleistung
beziehungsweise Zeit. Beim Brute-Force wird versucht fur ein Problem alle Moglich-
keiten zu testen. Die Anzahl der benotigten Iterationen konnen aus Gleichung (5.1)
5.1. ALGORITHMEN DER SELEKTION 39
entnommen werden.
N∑k=1
(N
k
)=
N∑k=1
(N !
k! (N − k)!
)(5.1)
Bei 21 Merkmalen, wie bei dem Modell zu H.263, gibt es 2097151 Moglichkeiten
und bei 99 Merkmalen, wie bei VP9, sind es 6, 3383 · 1029 Moglichkeiten. Mit der
Annahme, dass 20 Trillarden Iterationen pro Sekunde ausgefuhrt werden, wird un-
gefahr ein Jahr benotigt, um alle moglichen Konstellationen zu testen. Eine solche
Rechenleistung ist extrem hoch und mit der heutigen Technologie nicht erreichbar.
Zum Vergleich hat der Brute-Force von 21 Merkmalen in der getesteten Matlab-
Implementierung funf Tage fur alle Moglichkeiten gebraucht. Die besten Schatzfeh-
ler fur die Anzahl der Merkmale von eins bis 21 ist Abbildung 5.1 dargestellt.
Im oberen Diagramm kann der typische Verlauf fur Merkmalselektion gesehen wer-
den. Aus den in Kapitel 4 vorgestellten Kategorien, in die die Merkmale eingeteilt
werden konnen, wird dieser Verlauf verstandlich. Der Einfluss von stark relevan-
ten Merkmalen ist an der linken Seite der horizontalen Achse zu sehen. Die ersten
sechs sind fur das Modell sehr wichtig, damit es eine gute Schatzung ergeben kann.
Jedes entfernte Merkmal fuhrt zu einem ε, der um ein vielfaches großer ist als der
vorherige Schatzfehler. Aus dem unterem Diagramm kann der Einfluss der schwach
relevanten und irrelevanten Merkmale abgelesen werden. In den merkmalbasier-
ten Modellen, die zwischen sechs und zwolf Merkmale haben, sind die schwach
relevanten, nicht-redundaten Merkmale zu erkennen. In diesem Bereich wird der
mittlere Schatzfehler zwar besser, allerdings ist die Verbesseung sehr gering und im
oberen Diagramm nicht zu erkennen. Bei 13 Merkmalen ist nur ein schwach relevan-
tes, redundantes Merkmal zu erkennen, da der ε hier weder besser noch schlechter
wird. Ab 14 Merkmalen wird das merkmalbasierten Modell stetig schlechter und so-
mit handelt es sich ab hier um die irrelevanten Merkmale.
40
Anzahl der Merkmale2 4 6 8 10 12 14 16 18 20
Mitt
lere
r S
chät
zfeh
ler
[%]
0
5
10
15
20
25
30H263 - Brute Force
Anzahl der Merkmale6 8 10 12 14 16 18 20
Mitt
lere
r S
chät
zfeh
ler
[%]
1.62
1.64
1.66
1.68
1.7
1.72
1.74
1.76
1.78
1.8
1.82H263 - Brute Force
Abbildung 5.1: Brute-Force zu H.263 Modell, fur jede Anzahl an Merkmalen wird derniedrigste mittlere Schatzfehler ausgewahlt
5.1. ALGORITHMEN DER SELEKTION 41
Ruckwarts-Eliminierung Wrapper
Abbildung 5.2: Darstellung einer BE. Die roten Felder sind nicht in der Datenmengeenthalten und werden fur die Koeffizientenberechnung nicht benotigt.
Bei der Ruckwarts-Eliminierung wird bei jedem Durchlauf ein Merkmal entfernt. In
Abbildung 5.2 wird ein Durchlauf dargestellt, bei jeder Iteration wird der mittlere
Schatzfehler berechnet und hiernach wird das Modell mit dem niedrigsten Schatz-
fehler fur die weiteren Durchlaufe ausgewahlt. In Abbildung 5.3 ist ein Diagramm
einer BE zu sehen. Wird dieser Algorithmus mit dem optimalen Brute-Force vergli-
chen, dann kann bei mehr als elf Merkmalen ein fast gleiches Ergebniss beobachtet
werden.
Anzahl der Merkmale8 10 12 14 16 18 20
Mitt
lere
r S
chät
zfeh
ler
[%]
1.62
1.64
1.66
1.68
1.7
1.72
1.74
1.76
1.78H263 - Selection
BEBruteForce
Abbildung 5.3: Diagramm zeigt eine Ruckwarts-Eliminierung und einen Brute-Force,welche fur den Videocodec H.263 ausgefuhrt wurden
42
Wrapper Vorwarts Selektion
Abbildung 5.4: Darstellung einer FS. Die roten Felder sind nicht in der Datenmengeenthalten und werden fur die Koeffizientenberechnung nicht benotigt.
Die Vorwarts-Selektion wahlt einen ahnlichen Ansatz wie die BE. Der Unterschied
liegt in Richtung der Selektion. Die FS beginnt mit einer leeren Menge und fugt in
jedem Durchlauf ein Merkmal hinzu. Eine Darstellung zu diesem Ansatz ist in Abbil-
dung 5.4 zu sehen.
Die zu evaluierende Anzahl der Moglichkeiten ist bei der FS und der BE gleich und
ist im Vergleich zu Brute-Force-Methode viel kleiner. Diese wird aus folgender Sum-
me berechnet:
N∑k=1
k
N gibt die Anzahl der Merkmale des Modells an. Die Durchfuhrung wurde beim Mo-
dell zu H.263 231 Moglichkeiten und zu VP9 4950 Moglichkeiten testen. Im Vergleich
zum Brute-Force ist diese Anzahl der Moglichkeiten uberschaubar.
Der Ansatz der FS ist immer schneller ausgefuhrt als der Ansatz der BE, weil die FS
fur Modelle mit wenigen Merkmalen mehr Moglichkeiten hat. Mit Hilfe einer Gewich-
tung, die angibt mit wie vielen Merkmalen eine Moglichkeit evaluiert wurde, kann
dieser Unterschied mathematisch beschrieben werden. In der Gleichung (5.2) wird
5.1. ALGORITHMEN DER SELEKTION 43
die Anzahl der gewichteten Moglichkeiten fur BE berechnet. Analog wird in der Glei-
chung (5.3) die Gewichtung fur FS berechnet. Bei der FS konnen Abhangigkeiten
zwischen Merkmalen schlechter als bei der BE erfasst werden [RK97].
N∑k
k · (k − 1) (5.2)
N∑k
k · (N− k + 1) (5.3)
Wrapper FStS und BStE
Vorwärts-Selektion Rückwärts-EliminierungVorwärt-Selektion
Abbildung 5.5: Darstellung einer 2-1-FStS, bei einer 2-1-BStE werden Vorwarts-Selektion und Ruckwarts-Eliminierung vertauscht
Bei den schrittweisen Ansatzen werden BE und FS kombiniert und wie in Abbildung
5.5 ausgefuhrt. Der Rechenaufwand ist durch die bidirektionale Selektion viel hoher.
44
5.2 Algorithmen der Kombination
Auf die Kombination von Merkmalen wurde in Abschnitt 4.2 kurz eingegangen. Nun
werden Algorithmen vorgestellt, die Merkmale kombinieren. Fur die Legenden in
Diagrammen in Anhang B werden die Abkurzungen in Klammern definiert.
Die einfache Kombination (SiMe)
Dieser Algorithmus betrachtet zuerst die einzelnen Kategorien. Innerhalb einer Ka-
tegorie werden der Reihe nach fur jedes Merkmal alle moglichen Kombinationen
getestet. Danach wird der minimale mittlere Schatzfehler aus allen Kombinationen
bestimmt. Wird der Schatzfehler geringer, dann wird die beste Kombination fur die
weitere Betrachtung ubernommen. Ist die Schatzung ohne eine Kombination besser,
wird mit dem nachsten Merkmal der Kategorie fortgefahren. Wenn alle Merkmale
einer Kategorie bearbeitet wurden, wird die nachste Kategorie behandelt. Sobald
keine Verbesserung mehr eintritt, wenn alle Kategorien behandelt wurden, wird die
Kombination von Merkmalen verpflichtend. Diese Kombination wird solange aus-
gefuhrt bis jede Kategorie aus einem Merkmal besteht.
Die Brute-Force Kombination (BrMe)
Dieser Algorithmus ist kein Brute-Force wie bei der FSS, dennoch werden hier alle
Moglichkeiten eines Durchlaufs betrachtet. Anders zum SiMe-Ansatz wird nicht nur
ein Merkmal mit anderen Merkmalen kombiniert, sondern es werden die Moglich-
keiten aller Merkmale zur Kombination betrachtet. Ansonsten wird der Algorithmus
ahnlich zum SiMe-Algorithmus durchgefuhrt.
5.2. ALGORITHMEN DER KOMBINATION 45
The Mergic Selection (MeSe)
Hier wird das Grundprinzip von SiMe mit einer BE kombiniert. Die BE wird aus-
gefuhrt, sobald einmal alle Kategorien bearbeitet wurden. Sonsten ist der Algorith-
mus wie der SiMe-Algorithmus.
Die Brute Force Kombination mit Ruckwarts-Eliminierung (BrMeBE)
Der letzte vorgestellte Algorithmus funktioniert wie MeSe. Bei diesem werden, wie
beim BrMe, alle Moglichkeiten eines Durchlaufs betrachtet. Der BrMeBe ist der re-
chenaufwandigste Algorithmus der Kombinationsalgorithmen.
46 KAPITEL 6. EVALUATION DER ALGORITHMEN
Kapitel 6
Evaluation der Algorithmen
Nachfolgend werden die Algorithmen auf deren Effizienz und Qualitat untersucht.
Hierzu wird allgemein der beste mittlere Schatzfehler ermittelt und die Algorith-
men untereinander fur jeden Videocodec verglichen. Anschließend wird bei aus-
gewahlten Algorithmen der Zusammenhang zwischen den Ergebnissen und den
ausgewahlten Merkmalen hergestellt.
In Tabelle 6.1 werden verschiedene Eigenschaften der Algorithmen aufgelistet. Ne-
ben den besten Ergebnissen werden auch andere Eigenschaften betrachtet. Ur-
sprunglich hatten die Videostandards folgende Schatzfehler und Anzahl an Merk-
malen:
• H.263: 21 Merkmale, 1,6810 %
• H.264: 88 Merkmale, 2,9557 %
• HEVC: 90 Merkmale, 4,4496 %
• VP9: 99 Merkmale, 1,0149 %
Als akzeptable Schatzfehler werden alle Modelle, deren Schatzfehler niedriger als
10% sind, angenommen. In Anhang B konnen die Diagramme der einzelnen Algo-
rithmen zu jedem Videostandard gesehen werden.
47
H.263 H.264
[1] [2] [3] [4] [5] [1] [2] [3] [4] [5]
FS 1,656% 13 5 3 46 s 2,758% 31 7 4 51 m
BE 1,631% 11 5 4 56 s 2,833% 33 11 8 63 m
FStS 1,656% 12 5 3 247 s 2,736% 30 7 4 158 m
BStE 1,637% 12 6 3 245 s 2,761% 31 8 4 270 m
BruteForce 1,625% 12 5 3 5 d
Filter 1,681% 20 11 5 3 s 2,955% 63 16 14 25 s
SiMe 1,673% 16 11 11 56 s 2,769% 45 9 8 59 m
MeSe 1,639% 11 3 2 119 s 2,730% 41 9 6 89 m
BrMe 1,662% 15 11 11 66 s 2,740% 54 9 8 799 m
BrMeBE 1,639% 12 5 3 251 s 2,738% 61 8 6 35 h
HEVC VP9
[1] [2] [3] [4] [5] [1] [2] [3] [4] [5]
FS 4,136% 53 8 7 20 m 0,820% 51 18 5 17 m
BE 4,034% 51 7 7 37 m 0,798% 63 19 4 21 m
FStS 4,112% 72 8 7 61 m 0,766% 50 16 5 56 m
BStE 4,050% 46 7 6 69 m 0,775% 55 17 4 70 m
Filter 4,426% 87 32 31 23 s 1,010% 98 87 24 24 s
SiMe 3,786% 30 13 13 19 m 0,707% 37 22 8 42 m
MeSe 3,762% 28 4 3 27 m 0,705% 37 13 2 53 m
BrMe 3,828% 39 13 13 537 m 0,693% 47 14 8 29 h
BrMeBE 3,760% 32 5 4 506 m 0,686% 43 12 2 893 m
Tabelle 6.1: Daten der Algorithmen und Videocodecs. [1]: minimaler Schatzfehler;[2]: Anzahl der Merkmale bei minimalen Schatzfehler; [3]: Anzahl der Merkmale beiweniger als doppelten ursprunglichen Schatzfehler; [4]: Anzahl der Merkmale beiweniger als 10% Schatzfehler; [5]: Zeitliche Komplexitat des Algorithmus (d=Tage,h=Stunden, m=Minuten, s=Sekunden)
48
6.1 Evaluation der FSS-Algorithmen
Zunachst werden ich die Vorteile der Filter noch einmal kurz erlautert und auf deren
praktischen Einsatz bei der Merkmalselektion eingegangen.
Die kurze zeitliche Komplexitat der Filter, welche einen großen Vorteil des Filter-
Ansatzes darstellt, kann bei der praktischen Ausfuhrung der Algorithmen erkannt
werden. Innerhalb von maximal 30 Sekunden konnten alle Merkmale der Reihe nach
aussortiert werden und ein mittlerer Schatzfehler fur das Modell bestimmt werden.
Der zeitliche Aufwand kann auf wenige Sekunden reduziert werden, wenn vor der
Messung bekannt ist, wie viele Merkmale nach der Filterung bestehen sollen.
Der Filter eignet sich zusatzlich gut die Daten auf ungewollte Eigenschaften zu un-
tersuchen und daraufhin diese zu entfernen. Eine redundante Eigenschaft der Trai-
ningsdaten sind Merkmale, die immer die gleiche spezifische Anzahl (nf) haben.
Diese beinhalten fur das Modell keinen aussagekraftigen Einfluss. Das Merkmal
’Offset’ deckt den Einfluss dieser praktisch ab, da der Offset bei jedem Videostan-
dard in jeder Sequenz auf eins gesetzt wird. Durch diese Filterung konnen red-
undante Merkmale, die keinen Einfluss auf den Schatzfehler haben, von der Mo-
dellbildung entfernt werden. Der Wrapper-Ansatz hat in der Theorie keine direkte
Moglichkeit diese Merkmale aus der Menge zu entfernen. Bei H.264-Videostandard
gibt es insgesamt 24 Merkmale, die bei jeder Sequenz eine Null gesetzt haben und
somit redundante Merkmale sind1. In Abbildung 6.1 kann dieser Effekt bei einer BE
gesehen werden. Bei dem gelb markiertem Bereich sind von diesen 24 redundanten
Merkmalen 22 Merkmale enthalten. Die anderen beiden Merkmale wurden bereits
vor diesem Bereich aussortiert. Bei der FS ist der gleiche Effekt wie bei der BE zu
erkennen. Von der 33. Iteration bis zu 56. Iteration (von 33 bis 56 auf der x-Achse
der Graphen) werden alle 24 Merkmale der Reihe nach entfernt und verschlechtern1Merkmale mit Nullen: 14, 17, 19, 40-53, 76, 78, 80-84
6.1. EVALUATION DER FSS-ALGORITHMEN 49
durch das Entfernen den mittleren Schatzfehler nicht. Bei der Iteration 31 wird das
beste Ergebnis fur die FS erzielt.
Somit sind Merkmale, die bei jeder Sequenz den gleichen Wert haben, nicht wichtig
fur ein optimales Ergebnis. Eine Filterung dieser Merkmale zu Beginn eines Durch-
laufs ist sinnvoll.
Die Algorithmen der Wrapper-Ansatze zeigen sehr gute Ergebnisse und konnten
Abbildung 6.1: BE bei H.264 mit Markierung einer Besonderheit
den ursprunglichen Schatzfehler minimieren. Im Folgenden werden die Ergebnis-
se aus Tabelle 6.1 naher betrachtet. Bei den besten Schatzfehlern zeigt sich, dass
alle Algorithmen sehr gut funktionieren und die Unterschiede der Ergebnisse be-
schranken sich auf ungefahr 0,1% Differenz, wie in Tabelle 6.1 zu erkennen ist. Bei
H.263 hat das beste Modell einer FSS einen Schatzfehler von 1,631%, der mit Hilfe
des BE-Algorithmus erreicht wurde. Der Brute-Force konnte einen Schatzfehler von
1,625% mit zwolf Merkmalen erreichen. Der absolute Unterschied zwischen bei-
den Schatzfehlern liegt bei 0,006%, somit hat der BE-Algorithmus fast die perfekten
Merkmale bestimmen konnen. Unter Betrachtung der zeitlichen Komplexitat der bei-
den Ansatze, lasst sich der Unterschied deutlich erkennen. Der Brute-Force hat fur
das perfekte Ergebniss knapp funf Tage benotigt und die BE hat fur das nahezu per-
50
fekte Ergebnis weniger als eine Minute benotigt. Folglich ist eine uber 7000-fache
langere Zeit notwendig um 0,005% besser zu werden. Zwar bietet der Brute-Force
die optimale Losung fur jedes Modell, allerdings ist die zeitliche Komplexitat deutlich
großer als die Optimierung des merkmalbasierten Modells.
Die Algorithmen, die nach dem Wrapper-Ansatz ausgefuhrt wurden, konnten inner-
halb von weniger als vier Stunden die komplette Evalution durchfuhren. Alle unidi-
rektionalen Ansatze, FS und BE, konnten innerhalb von maximal 63 Minuten aus-
gefuhrt werden (vgl. 6.1).
Der BE-Algorithmus hat beim Modell von HEVC ebenfalls den niedrigsten Schatz-
fehler erreicht. Dieser lag bei 4,034% und hat den Schatzfehler um 10% verringern
konnen. Bei den anderen beiden Videocodecs war der schrittweise Ansatz des FStS
am erfolgreichsten. Bei H.264 lag der kleinste Schatzfehler bei 2,736% und bei VP9
bei 0,766%. Der ursprungliche Schatzfehler konnte beim Modell des VP9 um 25%
verkleinert werden.
20 30 40 50 60 70 80 90Anzahl der Merkmale
4
4.1
4.2
4.3
4.4
4.5
4.6
4.7
4.8
4.9
5
Mitt
lere
r S
chät
zfeh
ler
[%]
HEVC - Selektion
BEFSFStSBStE
Abbildung 6.2: Graph des Wrapper-Ansatze bei HEVC
6.1. EVALUATION DER FSS-ALGORITHMEN 51
In Abbildung 6.2 sind die Ergebnisse der Algorithmen im Bereich von 18 bis 90
Merkmalen zu sehen. Die schwarze gestrichelte Linie soll zur Orientierung dienen
und ist auf der Hohe von 4,45% eingezeichnet, dies entspricht dem Schatzfehler
von HEVC mit allen 90 Merkmalen. Wenn der ursprungliche Schatzfehler als obere
Grenze fur die Selektion angenommen wird, kann durch die FSS auf maximal 30
Merkmale reduziert werden. Folglich werden weniger als ein Drittel der Merkmale
fur die weitere Betrachtung des merkmalbasierten Modells benotigt. Auch bei den
anderen merkmalbasierten Modellen werden bei der FSS zwei Drittel der Merkmale
entfernt. In Abbildung 6.2 kann ein interessanter Verlauf bei der Kurve der FStS fest-
gestellt werden. Der Schatzfehler wird bei einer Betrachtung von links nach rechts
kleiner und ab 47 Merkmalen wird dieser wieder großer. Bei 68 Merkmalen kommt
das Modell bei einem lokalem Maximum von einem Schatzfehler von 4,271 % an.
Der Schatzfehler fallt nach diesem Maximum auf 4,123% bei 74 Merkmalen.
Fur akzeptable Schatzfehler muss ein Modell nicht viele Merkmale haben, wie aus
den Spalten 4 in Tabelle 6.1 abgelesen werden kann. Ein Modell mit einem Schatz-
fehler unter 10% benotigt weniger als 10 Merkmale, abgesehen von dem Filter-
Ansatz. Betrachtet man die Merkmale bei der FS fur ein Modell von starker Rele-
vanz sind. Das Modell zu HEVC besteht aus folgenden 7 Merkmalen: 3, 4, 22, 60,
63, 70, 84 (vgl. Tabelle A.4)
Werden die zugehorigen Kategorien der Merkmale betrachtet, dann ist jede der 6
definierten Kategorien aus Kapitel 2.2 enthalten. Zudem ist die Kategorie INTER
ist 2-fach vertreten und alle anderen Kategorien nur einmal. Diese Beobachtung
kann auch bei den anderen Videostandards machen. Folglich ist die Einteilung in
Kategorien sinnvoll und ein Modell kann kleinere Schatzfehler erzielen, wenn jede
Kategorie mit mindestens einem Merkmal vertreten ist. Die Kategorien sind, wie aus
Kapitel 4.2 bekannt, fur die Kombination von Merkmalen wichtig, welche im folgen-
dem Kapitel evaluiert werden.
52
Weitere Evaluation des Filter-Ansatzes
15 20 25 30 35 40 45 50 55 60
Anzahl der Merkmale
3
4
5
6
7
8
9
10
Mitt
lere
r S
chät
zfeh
ler
[%]
H.264 - Filter
Abbildung 6.3: Graph des Filter-Ansatzes bei H.264
30 40 50 60 70 80 90
Anzahl der Merkmale
0
1
2
3
4
5
6
7
8
9
10
Mitt
lere
r S
chät
zfeh
ler
[%]
VP9 - Filter
Abbildung 6.4: Graph des Filter-Ansatzes bei VP9
6.1. EVALUATION DER FSS-ALGORITHMEN 53
In den Abbildungen 6.3 und 6.4 sind zwei Kurvenverlaufe des Filter-Algorithmus
zu sehen. Das Modell des H.264 kann mit einem Schatzfehler von 3,79% bis auf
18 Merkmale verkleinert werden. Fur eine Verschlechterung des Schatzfehler um
0,8% werden 70 Merkmale entfernt. In der Abbildung 6.3 ist der geringe Anstieg
des Schatzfehlers von 64 bis 18 Merkmalen zu erkennen. Allerdings konnen die-
se guten Ergebnisse nicht immer erzielt werden, wie in Abbildung 6.4 zu sehen ist.
Beim Vergleich der Korrelationskoeffizienten (vgl. Abb. 6.5) fallt auf, dass die Ko-
effizienten bei H.264 fruher betragsmaßig kleiner werden als bei VP9. Somit lasst
sich kein direkter Zusammenhang zwischen der Eliminierung von Merkmalen mit
betragsmaßig großen Korrelationskoeffizienten und einem niedrigem Schatzfehler
finden. Fur weitere Untersuchungen ware es interessant, andere Eigenschaften der
Merkmalsmengen zu betrachten bzw. des Algorithmus des Filter-Ansatzes zu erwei-
terten, um fur alle Videostandards bessere Schatzungen zu erzielen. Weiter kann
der Zusammenhang zwischen Korrelation und der Schatzung von Merkmalen ge-
nauer betrachtet werden.
54
0 10 20 30 40 50 60 70 80 90 100
Nach Betrag sortierte Korellationskoeffizienten
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
Bet
rag
Kor
ella
tions
koef
fizie
nt
Vergleich der Korrelationskoeffizienten
H.264VP9
Abbildung 6.5: Vergleich der Korrelationskoeffizienten von H.264 und VP9
6.2 Evaluation der Kombination-Algorithmen
In Kapitel 5.2 wurden vier Algorithmen vorgestellt, die eine Kombination von Merk-
malen ausfuhren. Die besten Schatzfehler der Modelle aus Tabelle 6.1 zeigen, dass
mit den kombinierten Algorithmen noch bessere Ergebnisse als bei den FSS-Algorithmen
erzielt werden konnen. Bei HEVC konnte der Schatzfehler von 4,032%, der bei
der BE erzielt wurde, auf 3,760% reduziert werden. Zudem wurde die Anzahl der
benotigten Merkmale fur dieses Modell von 51 auf 32 Merkmale reduziert, aller-
dings ist die zeitliche Komplexitat um das 13-fache großer.
6.2. EVALUATION DER KOMBINATION-ALGORITHMEN 55
20 30 40 50 60 70 80
Anzahl der Merkmale
3.5
4
4.5
5
5.5
6
6.5
Mitt
lere
r S
chät
zfeh
ler
[%]
HEVC - Merge
SiMeMeSeBrMeBrMeBE
Abbildung 6.6: Graph der Kombination-Algorithmen bei HEVC
Bei dem Modell zum H.264-Videostandard konnte keine große Verbesserung des
Schatzfehlers erreicht werden und die Anzahl der Merkmale war bei den besten
Ergebnissen um ca. zehn Merkmale großer. Auch hier haben die Algorithmen viel
mehr Zeit benotigt als die Selektion. Eine großere Verbesserung als bei H.264 gab
es bei VP9. Dort konnte der Brute-Force mit BE einen Schatzfehler von 0,686%
erreichen und mit 43 Merkmalen erreicht werden. Bei diesem Algorithmus ist die
zeitliche Komplexitat um ein vielfaches großer.
Nur das Modell des H.263 konnte durch die Kombination der Merkmale keine Ver-
besserung erzielt werden. Dies kann durch die geringe Anzahl an Merkmalen ver-
ursacht werden.
56
6.3 Untermengen der FSS
In der Tabelle 6.2 werden mogliche Untermengen fur die FSS-Algorithmen gelistet.
Dabei werden zwei verschiedene Anwendungen ausgewertet. Neben der genaue-
sten Schatzung wird auch ein Modell mit moglichst wenigen Merkmalen und guter
Schatzung vorgestellt. Die Nummern der Merkmale konnen in den Tabellen aus Ka-
pitel A entnommen werden. Die Tabelle 6.2 gibt den ausgewahlten Algorithmus, die
Anzahl der Merkmale, die Nummern der Merkmale und den Schatzfehler an.
6.3. UNTERMENGEN DER FSS 57
H.263 H.264
Beste Schatzung BruteForce: 11; 1,625% FStS: 30; 2,736%
1 5 6 8 9 1 2 4 5 6
10 13 15 17 19 7 10 12 13 15
21 16 20 21 23 24
31 32 33 35 54
56 64 67 70 72
73 75 85 86 87
Wenige Merkmale BruteForce: 4; 1,625% BStE: 8 ; 4,4722%
& gute Schatzung 1 5 15 20 1 2 4 5 10
32 54 86
HEVC VP9
Beste Schatzung BE: 50; 4,034% FStS: 50; 0,766%
1 5 6 7 9 1 2 5 7 8
11 12 13 14 15 9 14 15 16 18
16 17 18 19 20 21 24 29 30 31
21 22 25 26 28 35 37 40 42 43
31 32 35 38 39 47 52 54 56 57
51 52 54 59 60 58 59 60 61 63
62 64 67 68 70 65 71 72 74 75
72 73 75 76 77 76 79 80 82 83
78 79 80 82 83 87 88 90 91 92
84 85 86 87 90 93 95 96 98 99
Wenige Merkmale BE: 10; 6,4496% BStE: 10 ; 3,7369%
& gute Schatzung 1 22 35 52 60 1 47 52 54 56
62 70 83 84 85 59 85 90 93 99
Tabelle 6.2: Untermengen fur verschiedene Anwendungen bei FSS
58 KAPITEL 7. FAZIT UND AUSBLICK
Kapitel 7
Fazit und Ausblick
Im Rahmen dieser Arbeit konnte gezeigt werden, dass es geeignete Untermengen
fur das merkmalbasierte Modell gibt und wie diese bestimmt werden konnen. Durch
den Einfluss der Trainingsdaten konnte gezeigt werden, dass die Auswahl der Trai-
ningssequenzen auf einen bestimmten Quantisierungs-Parameter beschrankt wer-
den kann.
Neben dem Wrapper-Ansatz wurde der Filter-Ansatz naher vorgestellt. Mit verschie-
denen Algorithmen wurden Untermengen von Merkmalen bestimmt. Der Zusam-
menhang zwischen der Korrelation und Qualitat der Schatzung kann beim Filter-
Ansatz fur weitere Untersuchungen naher betrachtet werden. Sinnvoll ist es den
Filter-Ansatz zu erweitern und weitere Eigenschaften von Merkmalen in die Betrach-
tung einzugliedern.
Alle Wrapper-Algorithmen zeigen gute Ergebnisse und sind in etwa vergleichbar. Fur
eine moglichst optimale Schatzung empfiehlt es sich, die Schrittweisen-Algorithmen
(FStS oder BStE) einzusetzen. Durch die zeitlich geringere Komplexitat ist es rat-
sam, den FStS-Algorithmus fur die beste Schatzung zu nutzen. Ist die verfugbare
Zeit fur einen FStS nicht ausreichend, dann empfiehlt sich der BE-Algorithmus an.
Fur moglichst wenige Merkmalen bietet sich der BStE-Algorithmus an, wenn der
zeitliche Aufwand nicht begrenzt ist. Fur eine zeitliche Begrenzung und moglichst
wenige Merkmale bietet sich der FS-Algorithmus an.
Bei den Kombinations-Algorithmen konnten bessere Ergebnisse als bei den Wrapper-
Algorithmen erreicht werden. Der Algorithmus MeSe bewies sich als schnell, im Ver-
gleich zu den anderen Kombinations-Algorithmen.
Abbildung 7.1: Graphische Oberflache fur FSS
Fur weitere Untersuchungen ist es sinnvoll eine passende Implementierung fur den
Embedded-Ansatz zu finden und anschließend diese zu implementieren. In Abbil-
dung 7.1 ist eine graphische Oberflache fur die Algorithmen der FSS zu sehen. Bei
der Oberflache kann der Video-Codec, der gewahlte Ansatz der FSS und weitere
Einstellungen ausgewahlt werden. Eine Erweiterung der Oberflache fur die Algorith-
men der Kombination und die Einbindung des Embedded-Ansatzes ware empfeh-
lenswert.
60
ANHANG A. 61
Anhang A
Video-Sequenzen und Merkmale der
Videostandards
A.1 Video-Sequenzen
62
Name Klasse Bilder Auflosung [pixel]PeopleOnStreet A 8 2560 x 1600Traffic A 8 2560 x 1600BasketballDrive B 40 1920 x 1080BQTerrace B 40 1920 x 1080Cactus B 40 1920 x 1080Kimono B 40 1920 x 1080ParkScene B 40 1920 x 1080BasketballDrill C 40 832 x 480BQMall C 40 832 x 480PartyScene C 40 832 x 480RaceHorses C 40 832 x 480BasketballPass D 40 416 x 240BlowingBubbles D 40 416 x 240BQSquare D 40 416 x 240FourPeople E 40 1280 x 720Johnny E 40 1280 x 720KirstenAndSara E 40 1280 x 720vidyo1 E 40 1280 x 720vidyo3 E 40 1280 x 720vidyo4 E 40 1280 x 720SlideEditing F 40 1280 x 720SlideShow F 40 1280 x 720ChinaSpeed F 40 1024 x 768BasketballDrillText F 40 1280 x 720Akiyo G 30 176 x 144Crew G 50 176 x 144Miss America G 50 176 x 144Coastguard G 50 176 x 144News G 30 176 x 144Foreman H 30 352 x 288Tennis H 30 352 x 288Car Phone H 50 352 x 288Bus H 50 352 x 288Suzie H 30 352 x 288
Tabelle A.1: Liste der Videosequenzen mit Anzahl der Bilder, Klasse, und Auflosungfur H.264, HEVC und VP9 [HSR+16]
63
Name Bilder Auflosung [pixel]akiyo 50 352 x 288alm 50 352 x 288ballet 50 352 x 288basketball 50 352 x 288bream2 50 176 x 144bus 50 352 x 288city splinescaled 50 352 x 288crew 50 176 x 144cut 50 352 x 288discovery animation 50 352 x 288eckenhard 50 176 x 144flower 50 352 x 288foreman 50 352 x 288hall monitor 50 176 x 144hockey 50 352 x 288huber2 ah 50 352 x 288lts 50 352 x 288marbles 50 352 x 288mobile calendar 50 176 x 144night splinescaled 50 352 x 288salesman 50 176 x 144sheriff splinescaled 50 352 x 288shuttle splinescaled 50 352 x 288smpte29 table tennis 50 352 x 288smpte36 ferris wheel 50 352 x 288
Tabelle A.2: Liste der Videosequenzen mit H.263-Codierung mit Anzahl der Bilderund Auflosung [HSR+16]
64
A.2 H.263 Merkmale
Nummer Name Kategorie Blockgroße
1 Offset 1 -
2 I-Frame 1 -
3 P-Frame 1 -
4 B-Frame 1 -
5 I-Frame-Intra 2 [16 x 16]
6 P-Frame-Intra 2 [16 x 16]
7 P-Frame-Inter 3 [16 x 16]
8 P-Frame-Inter4V 3 [8 x 8]
9 B-Frame-Intra 2 [8 x 8]
10 B-Frame-Inter 3 [8 x 8]
11 B-Frame-Inter4V 3 [8 x 8]
12 B-Frame-Bipred 3 [8 x 8]
13 MV Horizontal 3 -
14 MV Vertical 3 -
15 Fractional MV Interpolation 3 -
16 Number of Transformation 4 [8 x 8]
17 DCT-Coeff 5 -
18 DCT-Val 5 -
19 Tcoeff Escape 5 -
20 Tcoeff Non-Escape 5 -
21 Bytes of the Stream 5 -
Tabelle A.3: Liste der Merkmale des H.263 VideostandardsKategorie: 1 = OFFSET, 2 = INTRA, 3 = INTER, 4 = TRANS, 5 = COEFFEinheit: ’-’ entspricht einheitenloser Anzahl; [ x ] entspricht einer Blockgroße
A.3. H.264 MERKMALE 65
A.3 H.264 Merkmale
Nummer Name Kategorie Blockgroße1 Offset 1 -2 nFrames 1 -3 nSlices 1 -4 nBlocks 1 -5 CAVLC nCoeffs 5 -6 CAVLC coeffVal 5 -7 CAVLC MVD 5 -8 CAVLC MVD val 5 -9 CABAC nCoeffs 5 -10 CABAC coeffVal 5 -11 CABAC MVD 5 -12 CABAC MVD val 5 -13 - 15 intra VH 2 [16 x 16], [8 x 8], [4 x 4]16 - 17 intra diag 2 [16 x 16], [8 x 8]18 - 20 intra DC 2 [16 x 16], [8 x 8], [4 x 4]21 - 22 intra pla 2 [16 x 16], [4 x 4]23 intra PCM 2 [16 x 16]24 skip P 3 [16 x 16]25 skip B 3 [16 x 16]26 - 32 inter P 3 all33 - 39 inter B 3 all40 - 46 weighted inter P 3 all47 - 53 weighted inter B 3 all54 - 60 double interpolation 3 all61 - 67 single interpolation 3 all68 - 74 no interpolation 3 all75 - 76 transform 4 [4 x 4], [8 x 8]77 - 79 DC transform 4 [2 x 2], [2 x 4] o. [4 x 2], [4 x 4]80 - 82 ll transform 4 [4 x 4], [8 x 8], [16 x 16]83 scaling list type1 4 [4 x 4]84 scaling list type2 4 [8 x 8]85 Bs0 6 -86 Bs1 6 -87 Bs2 6 -88 Bs3 6 -
Tabelle A.4: Liste der Merkmale des H.264 Videostandards [Bow16]Kategorie: 1 = OFFSET, 2 = INTRA, 3 = INTER, 4 = TRANS, 5 = COEFF, 6 = ILFEinheit: ’-’ entspricht einheitenloser Anzahl; [ x ] entspricht einer Blockgroße;all = [16 x 16], [16 x 8], [8 x 16], [8 x 8], [8 x 4], [4 x 8], [4 x 4]
66
A.4 HEVC Merkmale
Nummer Name Kategorie Blockgroße1 Offset 1 -2 Islice 1 -3 PBslice 1 -4 intraCU 2 -5 - 8 intra pla 2 [32x32], [16x16], [8x8], [4x4]9 - 12 intra dc 2 [32x32], [16x16], [8x8], [4x4]13 - 16 intra hvd 2 [32x32], [16x16], [8x8], [4x4]17 - 20 intra ang 2 [32x32], [16x16], [8x8], [4x4]21 intra noMPM 2 -22 - 25 skip 3 [64x64], [32x32], [16x16], [8x8]26 - 29 merge 3 [64x64], [32x32], [16x16], [8x8]30 - 33 mergeSMP 3 [64x64], [32x32], [16x16], [8x8]34 - 36 mergeAMP 3 [64x64], [32x32], [16x16]37 - 40 inter 3 [64x64], [32x32], [16x16], [8x8]41 - 44 interSMP 3 [64x64], [32x32], [16x16], [8x8]45 - 47 interAMP 3 [64x64], [32x32], [16x16]48 - 51 fracpelHor 3 [64x64], [32x32], [16x16], [8x8]52 - 55 fracpelVer 3 [64x64], [32x32], [16x16], [8x8]56 - 59 HalfPel 3 [64x64], [32x32], [16x16], [8x8]60 inter bi 3 [4 x 4]61 inter MVD 3 -62 coeff 5 -63 coeffg1 5 -64 CSBF 5 -65 val 5 -66 - 69 TrIntraY 4 [32x32], [16x16], [8x8], [4x4]70 - 73 TrIntraC 4 [32x32], [16x16], [8x8], [4x4]74 - 77 TrInterY 4 [32x32], [16x16], [8x8], [4x4]78 - 81 TrInterC 4 [32x32], [16x16], [8x8], [4x4]82 TSF 4 [4 x 4]83 Bs0 6 -84 Bs1 6 -85 Bs2 6 -86 SAO Y B0 6 [64 x 64]87 SAO Y E0 6 [64 x 64]88 SAO C B0 6 [64 x 64]89 SAO C E0 6 [64 x 64]90 SAO allComps 6 [64 x 64]
Tabelle A.5: Liste der Merkmale des HEVC Videostandards [HSR+16]Kategorie: 1 =OFFSET, 2 =INTRA, 3 =INTER, 4 =TRANS, 5 = COEFF, 6 = ILFEinheit: ’-’ entspricht einheitenloser Anzahl; [ x ] entspricht einer Blockgroße
A.5. VP9 MERKMALE 67
A.5 VP9 Merkmale
Nummer Name Kategorie Blockgroße1 Offset 1 -2 nFrames 1 -3 nSuperBlock 1 [64 x 64]4 - 7 Intra DC 2 [4 x 4], [8 x 8], [16 x 16], [32 x 32]8 - 11 Intra HV 2 [4 x 4], [8 x 8], [16 x 16], [32 x 32]12 - 15 Intra TM 2 [4 x 4], [8 x 8], [16 x 16], [32 x 32]16 - 19 Intra D 2 [4 x 4], [8 x 8], [16 x 16], [32 x 32]20 - 28 Inter near nearest 3 inter all29 - 37 Inter new 3 inter all38 - 46 Inter zero 3 inter all47 MV compound 3 [4 x 4]48 - 56 Convolve copy 3 inter all57 - 65 Convolve hor ver 3 inter all66 - 74 Convolve ver 3 inter all72 - 83 Convolve hor 3 inter all84 - 87 Transform intra 4 [4 x 4], [8 x 8], [16 x 16], [32 x 32]88 - 91 Transform inter 4 [4 x 4], [8 x 8], [16 x 16], [32 x 32]92 nCoeff 5 -93 Coeff val 5 -94 LF ver 4 6 -95 LF ver 8 6 -96 LF ver 16 6 -97 LF hor 4 6 -98 LF hor 8 6 -99 LF hor 16 6 -
Tabelle A.6: Liste der Merkmale des VP9 Videostandards [Yon16]Kategorie: 1 =OFFSET, 2 =INTRA, 3 =INTER, 4 =TRANS, 5 = COEFF, 6 = ILFEinheit: ’-’ entspricht einheitenloser Anzahl; [ x ] entspricht einer Blockgroße;inter all = [4 x 4], [4 x 8] o. [8 x 4], [8 x 8], [8 x 16] o. [16 x 8], [16 x 16], [16 x 32] o.[32 x 16], [32 x 32], [32 x 64] o. [64 x 32], [64 x 64]
68 ANHANG B. DIAGRAMME DER ALGORITHMEN
Anhang B
Diagramme der Algorithmen
69
H.263-Wrapper
68
1012
1416
1820
Anz
ahl d
er M
erkm
ale
1.6
1.82
2.2
2.4
2.6
2.8
Mittlerer Schätzfehler [%]
H26
3 -
Sel
ekti
on
BS
tE
FS
Bru
te F
orce
FS
tS
BS
tE
70
H.264-Wrapper
2030
4050
6070
80
Anz
ahl d
er M
erkm
ale
2.7
2.8
2.93
3.1
3.2
3.3
3.4
3.5
Mittlerer Schätzfehler [%]
H26
4 -
Sel
ekti
on
BE
FS
FS
tSB
StE
71
HEVC-Wrapper
2030
4050
6070
8090
Anz
ahl d
er M
erkm
ale
4
4.1
4.2
4.3
4.4
4.5
4.6
4.7
4.8
4.95
Mittlerer Schätzfehler [%]
HE
VC
- S
elek
tio
n
BE
FS
BS
tEF
StS
72
VP9-Wrapper
20
30
40
50
60
70
80
90
An
zah
l de
r M
erk
ma
le
0.81
1.2
1.4
1.6
1.8
Mittlerer Schätzfehler [%]
VP
9 -
Sel
ekti
on
BE
FS
FS
tS
BS
tE
73
H.263-Filter
46
810
1214
1618
Anza
hl d
er M
erkm
ale
012345678910 Mittlerer Schätzfehler [%]
H.26
3 - F
ilter
74
H.264-Filter
1520
2530
3540
4550
5560
Anza
hl d
er M
erkm
ale
345678910 Mittlerer Schätzfehler [%]
H.26
4 - F
ilter
75
HEVC-Filter
3040
5060
7080
Anza
hl d
er M
erkm
ale
45678910 Mittlerer Schätzfehler [%]
HEVC
- Fi
lter
76
VP9-Filter
3040
5060
7080
90
Anza
hl d
er M
erkm
ale
012345678910 Mittlerer Schätzfehler [%]
VP9
- Filt
er
77
H.263-Merge
68
1012
1416
1820
Anz
ahl d
er M
erkm
ale
1.6
1.7
1.8
1.92
2.1
2.2
2.3
Mittlerer Schätzfehler [%]H
263
- M
erg
e
SiM
eM
eSe
BrM
eV
oRe
BrM
eBE
78
H.264-Merge
2030
4050
6070
80
Anz
ahl d
er M
erkm
ale
2.53
3.54
4.55
Mittlerer Schätzfehler [%]
H26
4 -
Mer
ge
SiM
eM
eSe
BrM
eB
rMeB
E
79
HEVC-Merge
2030
4050
6070
80
Anz
ahl d
er M
erkm
ale
3.54
4.55
5.56
6.5
Mittlerer Schätzfehler [%]H
EV
C -
Mer
ge
SiM
eM
eSe
BrM
eB
rMeB
E
80
VP9-Merge
2030
4050
6070
8090
Anz
ahl d
er M
erkm
ale
0.6
0.81
1.2
1.4
1.6
1.82
Mittlerer Schätzfehler [%]
VP
9 -
Mer
ge
SiM
eM
eSe
BrM
eB
rMeB
E
ABBILDUNGSVERZEICHNIS 81
Abbildungsverzeichnis
1.1 Mobiler Datenverkehr pro Monat . . . . . . . . . . . . . . . . . . . . . 1
1.2 Umfrage zu gewunschten Funktionen eines Smartphones . . . . . . . 2
2.1 Blockschaltbild eines Videodecoders . . . . . . . . . . . . . . . . . . . 4
2.2 Bild mit gleichmaßiger Blockaufteilung . . . . . . . . . . . . . . . . . . 6
2.3 Aufteilung der einzelnen Komponenten Y, Cb und Cr aus einem Farbbild 7
2.4 Abtastverhaltnisse bei Farbsignalen . . . . . . . . . . . . . . . . . . . 8
2.5 Basisfunktionen der 8x8 DCT . . . . . . . . . . . . . . . . . . . . . . . 10
2.6 Gerade gleichformige Quantisierungskennlinie . . . . . . . . . . . . . 11
2.7 Reihenfolge eines Zig-Zag-Scans . . . . . . . . . . . . . . . . . . . . . 13
2.8 Darstellung einer blockbasierten Bewegungsschatzung . . . . . . . . 14
2.9 Subpixel-Interpolation mit halben Pixeln . . . . . . . . . . . . . . . . . 14
2.10 Intra-Pradiktion von 4 x 4-Blocken . . . . . . . . . . . . . . . . . . . . 15
2.11 Einfluss von Blockartefakten . . . . . . . . . . . . . . . . . . . . . . . . 16
2.12 Ausschnitt eines Bildsignals an einer Blockgrenze . . . . . . . . . . . 17
2.13 Darstellung von Ringing-Artefakten . . . . . . . . . . . . . . . . . . . . 17
2.14 Ablauf der Evaluation . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
2.15 ZES ZIMMER LMG95 . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
2.16 Messaufbau mit Spannungsversorgung . . . . . . . . . . . . . . . . . 21
2.17 Leistungsdiagramm einer Decodierung . . . . . . . . . . . . . . . . . . 22
2.18 Beispiel fur eine lineare Regression . . . . . . . . . . . . . . . . . . . 24
2.19 Illustration einer 10-fachen Kreuzvaldierung . . . . . . . . . . . . . . . 26
82
3.1 Evaluation des Einflusses der Trainingsdaten auf den mittleren Schatz-
fehler . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
3.2 Relative Energien von einzelnen Sequenzen eines merkmalbasierten
Modells . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
4.1 Veranschaulichung der Relevanz, Redundanz und Irrelevanz von Merk-
malen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
4.2 Pearson-Korrelationskoeffizient . . . . . . . . . . . . . . . . . . . . . . 36
5.1 Graph eines Brute-Force zu H.263 . . . . . . . . . . . . . . . . . . . . 40
5.2 Darstellung einer BE . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
5.3 Vergleich einer Ruckwarts-Eliminierung mit einem Brute-Force . . . . 41
5.4 Darstellung einer FS . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
5.5 Darstellung einer 2-1-FStS . . . . . . . . . . . . . . . . . . . . . . . . 43
6.1 BE bei H.264 mit Markierung einer Besonderheit . . . . . . . . . . . . 49
6.2 Graph des Wrapper-Ansatze bei HEVC . . . . . . . . . . . . . . . . . 50
6.3 Graph des Filter-Ansatzes bei H.264 . . . . . . . . . . . . . . . . . . . 52
6.4 Graph des Filter-Ansatzes bei VP9 . . . . . . . . . . . . . . . . . . . . 52
6.5 Vergleich der Korrelationskoeffizienten von H.264 und VP9 . . . . . . 54
6.6 Graph der Kombination-Algorithmen bei HEVC . . . . . . . . . . . . . 55
7.1 Graphische Oberflache fur FSS . . . . . . . . . . . . . . . . . . . . . . 59
TABELLENVERZEICHNIS 83
Tabellenverzeichnis
2.1 Bezeichnung der Blockeinheiten und die großte/kleinste mogliche Block-
große . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
2.2 Einstellung der Videosequenzen und Encoder . . . . . . . . . . . . . . 22
2.3 Modell zu H.263 mit spezifischen Energien . . . . . . . . . . . . . . . 25
6.1 Daten der Algorithmen und Videocodecs . . . . . . . . . . . . . . . . . 47
6.2 Untermengen fur verschiedene Anwendungen bei FSS . . . . . . . . 57
A.1 Liste der Videosequenzen mit Anzahl der Bilder, Klasse, und Auflosung
fur H.264, HEVC und VP9 . . . . . . . . . . . . . . . . . . . . . . . . . 62
A.2 Liste der Videosequenzen mit H.263-Codierung mit Anzahl der Bilder
und Auflosung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
A.3 Liste der Merkmale des H.263 Videostandards mit Kategorie und Block-
große . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64
A.4 Liste der Merkmale des H.264 Videostandards mit Kategorie und Block-
große . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
A.5 Liste der Merkmale des HEVC Videostandards mit Kategorie und
Blockgroße . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66
A.6 Liste der Merkmale des VP9 Videostandards mit Kategorie und Block-
große . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
84 LITERATURVERZEICHNIS
Literaturverzeichnis
[BCSMAB15] BOLON-CANEDO, Veronica ; SANCHEZ-MARONO, Noelia ; ALONSO-
BETANZOS, Amparo: Feature Selection for High-Dimensional Data -.
Berlin, Heidelberg : Springer, 2015
[BEPW16] BACKHAUS, Klaus ; ERICHSON, Bernd ; PLINKE, Wulff ; WEIBER, Rolf:
Multivariate Analysemethoden. Bd. 14. Springer, 2016
[Bow16] BOWEN, Dai: Implementierung eines Bitstrom-Analysierers fur H.264-
codierte Videos, FAU Erlangen-Nurnberg, Lehrstuhl fur Multimedia-
kommunikation und Signalverarbeitung, Masterarbeit, April 2016
[com] COMSCORE: Anzahl der Smartphone-Nutzer in Deutsch-
land in den Jahren 2009 bis 2016 (in Millionen). http:
//de.statista.com/statistik/daten/studie/198959/umfrage/
anzahl-der-smartphonenutzer-in-deutschland-seit-2010/
[Eri16] ERICSSON: Ericsson Mobility Report - June 2016. https://www.
ericsson.com/res/docs/2016/ericsson-mobility-report-2016.
pdf. Version: June 2016
[HSR+16] HERGLOTZ, C. ; SPRINGER, D. ; REICHENBACH, M. ; STABERNACK, B.
; KAUP, A.: Modeling the Energy Consumption of the HEVC Decoding
Process. In: IEEE Transactions on Circuits and Systems for Video
Technology (TCSVT) (2016)
LITERATURVERZEICHNIS 85
[HWD+16] HERGLOTZ, Christian ; WEN, Yongjun ; DAI, Bowen ; KRANZLER, Matt-
hias ; KAUP, Andre: A Bitstream Feature Based Model for Video De-
coding Energy Estimation. In: submitted to Picture Coding Symposi-
um (PCS). Nurnberg, Germany, Dec 2016
[HWK15] HERGLOTZ, C. ; WALENCIK, E. ; KAUP, A.: Estimating the HEVC De-
coding Energy Using the Decoder Processing Time. In: Proc. IEEE
Int. Symp. on Circuits and Systems (ISCAS). Lisbon, Portugal, May
2015, S. 513–516
[Kau16] KAUP, Prof.Dr.-Ing. A.: Image and Video Compression - Skriptum zur
Vorlesung. SS 2016
[Mat] MATLAB: lsqcurvefit. de.mathworks.com/help/optim/ug/
lsqcurvefit.html
[Mla06] Kapitel Feature Selection for Dimensionality Reduction.
In: MLADENIC, Dunja: Subspace, Latent Structure and Feature
Selection: Statistical and Optimization Perspectives Workshop,
SLSFS 2005, Bohinj, Slovenia, February 23-25, 2005, Revised
Selected Papers. Berlin, Heidelberg : Springer Berlin Heidelberg,
2006, S. 84–102
[RK97] RON KOHAVI, George H. J.: Wrappers for feature subset selection.
In: Artificial Intelligence 97, 1997, S. 273–324
[SBS14] SZE, Vivienne ; BUDAGAVI, Madhukar ; SULLIVAN, Gary J.: High Ef-
ficiency Video Coding. 1.Auflage. Springer International Publishing,
2014
[Sch13] SCHMIDT, Ulrich: Professionelle Videotechnik: Grundlagen, Filmtech-
nik, Fernsehtechnik, Gerate- und Studiotechnik in SD, HD, DI, 3D
(German Edition). Springer Vieweg, 2013
86
[Str09] STRUTZ, Tilo: Bilddatenkompression - Grundlagen, Codierung, Wa-
velets, JPEG, MPEG. 4. Aufl. Berlin Heidelberg New York : Springer-
Verlag, 2009
[WFH11] WITTEN, Ian H. ; FRANK, Eibe ; HALL, Mark A.: Data Mining: Prac-
tical Machine Learning Tools and Techniques. 3. Aufl. Amsterdam :
Elsevier, 2011
[Yon16] YONGJUN, Wen: Implementierung eines Bitstrom-Analysierers fur
VP9-codierte Videos, FAU Erlangen-Nurnberg, Lehrstuhl fur Multime-
diakommunikation und Signalverarbeitung, Masterarbeit, April 2016
[Z88] ZOFEL, Peter: Statistik in der Praxis. 2., uberarb. Aufl. Stuttgart :
Fischer, 1988