Download - Friedrich-Alexander-Universitat¨ Erlangen-Nurnberg¨ · H.263 Makroblock [16 x 16] / [8 x 8] H.264 Makroblock [16 x 16] / [2 x 2] HEVC CTU [64 x 64] / [4 x 4] VP9 Superblock [64

Friedrich-Alexander-UniversitatErlangen-Nurnberg

Lehrstuhl fur Multimediakommunikation undSignalverarbeitung

Prof. Dr.-Ing. Andre Kaup

Bachelorarbeit

Merkmalsauswahl fur die Energieschatzungeines Videodecoders

von Matthias Kranzler

September 2016

Betreuer: Christian Herglotz, Dipl.-Ing.

Erklarung

Ich versichere, dass ich die vorliegende Arbeit ohne fremde Hilfe und

ohne Benutzung anderer als der angegebenen Quellen angefertigt

habe, und dass die Arbeit in gleicher oder ahnlicher Form noch kei-

ner anderen Prufungsbehorde vorgelegen hat und von dieser als Teil

einer Prufungsleistung angenommen wurde. Alle Ausfuhrungen, die

wortlich oder sinngemaß ubernommen wurden, sind als solche ge-

kennzeichnet.

————————————

Ort, Datum

————————————

Unterschrift

INHALTSVERZEICHNIS I

Inhaltsverzeichnis

Kurzfassung V

Abkurzungsverzeichnis VI

Formelzeichen & Variablen VII

1 Einleitung 1

2 Video-Codec 4

2.1 Grundlagen der hybriden Videocodierung . . . . . . . . . . . . . . . . 5

2.1.1 Block-Partitionierung und Farbmodell . . . . . . . . . . . . . . 5

2.1.2 Entropiecodierung . . . . . . . . . . . . . . . . . . . . . . . . . 8

2.1.3 Diskrete Cosinus-Transformation . . . . . . . . . . . . . . . . . 9

2.1.4 Quantisierung . . . . . . . . . . . . . . . . . . . . . . . . . . . 11

2.1.5 Lauflangencodierung . . . . . . . . . . . . . . . . . . . . . . . 12

2.1.6 Bewegungsschatzung und Bewegungskompensation . . . . . 13

2.1.7 Intra-Pradiktion . . . . . . . . . . . . . . . . . . . . . . . . . . . 15

2.1.8 In-Loop-Filter . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16

2.2 Merkmale der Videostandards . . . . . . . . . . . . . . . . . . . . . . 18

2.3 Das merkmalbasierte Modell . . . . . . . . . . . . . . . . . . . . . . . 20

2.3.1 Messungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21

2.3.2 Bitstrommerkmale . . . . . . . . . . . . . . . . . . . . . . . . . 23

2.3.3 Koeffizientenbestimmung und Kreuzvalidierung . . . . . . . . . 24

II

2.3.4 Das erweiterte merkmalbasierte Modell . . . . . . . . . . . . . 28

3 Einfluss der Trainingsdaten 29

4 Ansatze der Merkmalselektion 32

4.1 Suchstrategien und Ansatze der Feature Subset Selection . . . . . . . 34

4.1.1 Suchstrategien . . . . . . . . . . . . . . . . . . . . . . . . . . . 34

4.1.2 Ansatze der Feature Subset Selection (FSS) . . . . . . . . . . 34

4.2 Kombination von Merkmalen . . . . . . . . . . . . . . . . . . . . . . . 37

5 Algorithmen der Kombination und Selektion der Merkmale 38

5.1 Algorithmen der Selektion . . . . . . . . . . . . . . . . . . . . . . . . . 38

5.2 Algorithmen der Kombination . . . . . . . . . . . . . . . . . . . . . . . 44

6 Evaluation der Algorithmen 46

6.1 Evaluation der FSS-Algorithmen . . . . . . . . . . . . . . . . . . . . . 48

6.2 Evaluation der Kombination-Algorithmen . . . . . . . . . . . . . . . . . 54

6.3 Untermengen der FSS . . . . . . . . . . . . . . . . . . . . . . . . . . . 56

7 Fazit und Ausblick 58

A Video-Sequenzen und Merkmale der Videostandards 61

A.1 Video-Sequenzen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61

A.2 H.263 Merkmale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64

A.3 H.264 Merkmale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65

A.4 HEVC Merkmale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66

A.5 VP9 Merkmale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67

B Diagramme der Algorithmen 68

Abbildungsverzeichnis 81

Tabellenverzeichnis 82

INHALTSVERZEICHNIS III

Literaturverzeichnis 84

KURZFASSUNG V

Kurzfassung

In dieser Arbeit werden zu Beginn die Grundlagen der hybriden Videocodierung er-

klart und das merkmalbasierte Modell vorgestellt. Anschließend wird der Einfluss

der Trainingsdaten auf die Schatzung untersucht, wofur das merkmalbasierte Mo-

dell des HEVC-Videostandards genutzt wird.

Des Weiteren werden zwei Ansatze der Merkmalselektion erklart. Es werden so-

wohl Algorithmen, welche Merkmale selektieren, als auch Algorithmen die Merkma-

le kombinieren, erklart. Abschließend werden die behandelten Algorithmen evaluiert

und verschiedene Untermengen fur jeden Videostandard vorgeschlagen.

VI ABKURZUNGSVERZEICHNIS

Abkurzungsverzeichnis

BE Backward Elimination

BStE Backward Stepwise Elimination

COEFF Codierung

DCT Diskrete Cosinus Transformation

FM Feature Merging

FS Forward Selection

FSS Feature Subset Selection

FStS Forward Stepwise Selection

ILF In-Loop Filter

INTER Interframe Pradiktion

INTRA Intraframe Pradiktion

PSNR Peak-Signal-to-Noise-Ratio

OFFSET Offset

TRANS Transformation

FORMELZEICHEN VII

Formelzeichen & Variablen

Edec durch Modell geschatzte Energie [J]

Edec gemessene Energie [J]

FS Feature Selection

ε mittlerer Schatzfehler

ε relativer Schatzfehler

KAPITEL 1. EINLEITUNG 1

Kapitel 1

Einleitung

Der Anteil an mobilen Endgeraten wie Smartphones oder Tablets ist in den letz-

ten Jahren stetig gestiegen. Im April 2016 haben bereits 49 Millionen Deutsche ein

Smartphone besessen [com]. Doch nicht nur die Anzahl der Besitzer von mobilen

Endgeraten nimmt zu. Bis ins Jahr 2021 wird der Anteil an mobilen Datenverbindun-

gen, die fur die Videodaten benotigt werden, auf 70% ansteigen und die jahrliche

Datenmenge um 55 % anwachsen [Eri16].

Abbildung 1.1: Mobiler Datenverkehr pro Monat, Ericsson Mobility Report Juni 2016[Eri16]

2

Fur Videodecodierung wird eine hohe Rechenleistung benotigt, deshalb werden

hierfur große Kapazitaten des Akkus eines Smartphones gebraucht. Die Decodie-

rung eines Videos in High-Definition-Auflosung wurde innerhalb von 4 Stunden den

Akku vollstandig entladen [HSR+16]. Eine moglichst energieeffiziente Codierung

von Videodaten ist aus diesen Grunden ein wichtiges Gebiet in der Forschung.

Wie die in Abb. 1.2 dargestellte Umfrage zeigt, nimmt die Energieeffizienz bei Video-

Anwendungen eine große Rolle bei dem Konsumenten ein. Fur 63 % von den 749

befragten Smartphone-Nutzern ware eine deutlich langere Akkulaufzeit wunschens-

wert und ist damit die haufigste, nachgefragte Funktion fur ein neues Handy.

Abbildung 1.2: Umfrage zu gewunschten Funktionen eines Smartphones1

1de.statista.com/graphic/5/180389/gruende-fuer-kaufentscheidung-von-smartphones.jpg,

11.09.2016

KAPITEL 1. EINLEITUNG 3

Um die Energieeffizienz verbessern zu konnen, wird ein Maßstab benotigt, wel-

chen die Bitstrom-Merkmale darstellen. Ziel dieser Arbeit ist es daher, das merk-

malbasierte Modell zu erklaren und einen Uberblick uber die Thematik der Video-

codierung zu geben. Weiterhin sollen Merkmalsauswahlalgorithmen entwickelt und

erlautert werden, die geeignete Untermengen fur diverse Anwendungen bestimmen

konnen. Eine wichtige Anwendung ist zum Beispiel die moglichst genaue Schatzung

von Merkmalen. Zusatzlich sollen Einflusse, wie die Wahl der Trainingssequenzen,

naher untersucht werden.

Um dies umzusetzen, werden in Kapitel 2 zu Beginn die Grundlagen der hybriden

Videocodierung erklart, um ein grobes Verstandnis zu vermitteln, wie die Videoco-

dierung funktioniert. Ferner werden anhand der Grundlagen verschiedene Katego-

rien fur Merkmale und das merkmalbasierte Modell eingefuhrt. Hierzu werden die

einzelnen Schritte aufgezeigt, die notwendig sind, um ein merkmalbasiertes Mo-

dell zu erstellen. In Kapitel 3 wird der Einfluss der Trainingsdaten auf die Qualitat

des Modell behandelt. Ziel der Untersuchungen soll es sein, herauszufinden, wel-

che Daten der Messungen wichtig sind. Im Folgenden werden die Ansatze fur die

Merkmalselektion eingefuhrt. Danach werden die Algorithmen beschrieben, die aus

diesen Ansatzen entwickelt wurden. Zuletzt werden die Ergebnisse der entwickelten

Algorithmen untersucht. Zum Schluss wird ein zusammenfassendes Fazit aus der

Arbeit gezogen und Ausblick in Richtung weiterer notwendiger Forschung gegeben,

welche man betreiben konnte.

4 KAPITEL 2. VIDEO-CODEC

Kapitel 2

Video-Codecs

Das folgende Kapitel soll helfen, ein Verstandnis uber die Bedeutung und die techni-

schen Hintergrunde der Merkmale des Energiemodells zu bekommen. Hierzu wer-

den sowohl die Grundlagen der hybriden Videocodierung, als auch das merkmalba-

sierte Modell erlautert. In den beiden Masterarbeiten [Yon16] und [Bow16] werden

die Videostandards VP9 und H.264 naher erklart und in [SBS14] wird eine ausfuhr-

liche Beschreibung des HEVC-Videostandards gegeben. In Abbildung 2.1 wird das

Blockschaltbild eines Videodecoders gezeigt. Die einzelnen Blocke des Blockschalt-

bildes werden in Kapitel 2.1 genauer bestimmt.

BitstromEntropie-

DecodierungInverse

QuantisierungIDCT

Bewegungs-kompensation

Intra-Prädiktion

In-Loop-FilterFrame SpeicherZusammen-

setzen

Abbildung 2.1: Blockschaltbild eines Videodecoders

2.1. GRUNDLAGEN DER HYBRIDEN VIDEOCODIERUNG 5

2.1 Grundlagen der hybriden Videocodierung

Irrelevanzreduktion und Redunanzreduktion sind zwei elementare Komponenten,

um Daten zu komprimieren. Werden die Eigenschaften der Quelle zur Kompres-

sion genutzt, so spricht man von Redundanzreduktion. Bei dieser gibt es keinen

Datenverlust im Gegensatz zur Irrelevanzreduktion, die durch das Nutzen von Ei-

genschaften der menschlichen Wahrnehmung oder durch Quantisierung realisiert

werden kann.

Nun werden die Blockbildung, das Farbmodell, die Entropiecodierung, die Diskrete

Cosinus Transformation (DCT), die Quantisierung, die Lauflangencodierung, die Be-

wegungsschatzung und -kompensation, die Intra-Pradiktion und die In-Loop-Filter

beschrieben.

2.1.1 Block-Partitionierung und Farbmodell

Blockbildung

Der erste Schritt der Video-Encodierung bildet die Block-Partitionierung, welche

fur die einfachere Verarbeitung der Bilder vorgenommen wird. Aus der Tabelle 2.1

konnen die Bezeichnungen fur die großten Blockeinheiten und die kleinsten Block-

großen der Videostandards entnommen werden.

H.263 Makroblock [16 x 16] / [8 x 8]

H.264 Makroblock [16 x 16] / [2 x 2]

HEVC CTU [64 x 64] / [4 x 4]

VP9 Superblock [64 x 64] / [4 x 4]

Tabelle 2.1: Bezeichnung der Blockeinheiten und die großte/kleinste mogliche Block-große

6

Ein Beispiel fur Block-Partionierung ist in Abbildung 2.2 zu sehen. Dieses Bild wurde

in 64 gleichmaßig große Blocke, mit den Abmessungen [64 x 64], partitioniert.

Abbildung 2.2: Bild mit gleichmaßiger Blockaufteilung

Farbmodell und Farbunterabtastung

Bei den behandelten Videostandards gibt es zwei Gruppen an Farbmodellen. Zum

einen das RGB-Farbmodell und zum anderen Farbmodelle mit Luminanz/Helligkeit

(Y) und mit Chrominanz (C). Die Darstellung auf Bildschirmen erfolgt in RGB (= Rot

Grun Blau). Ein sehr weit verbreitetes Farbmodell ist das YCbCr-Farbmodell. Bei

diesem ist eine Chrominanz Blau (Cb) und die andere Chrominanz Rot (Cr).

Ein Beispiel fur eine Aufteilung in die einzelnen Komponenten kann in Abbildung

2.3 gesehen werden. Bei genauer Betrachtung der einzelnen Komponenten lasst

sich ein Effekt erkennen, der mit der optischen Wahrnehmung des Menschen zu-

sammenhangt. Im Schwarz-Weiß-Bild sind mehr Details zu erkennen, als in den

anderen beiden Bildern der Farbkomponenten. Dies hat den Hintergrund, dass das

menschliche Auge 120 Millionen Stabchen fur die Wahrnehmung der Helligkeit und

6 Millionen Zapfen fur die Wahrnehmung von Farben hat. Folglich ist die Helligkeits-

auflosung viel scharfer als die Farbauflosung [Kau16].


Abbildung 2.3: Aufteilung der einzelnen Komponenten Y, Cb und Cr aus einem Farb-bild1

Durch Farbunterabtastung kann eine Kompression der Datenmenge erreicht und

die unterschiedliche Farb- und Helligkeitsauflosung zu Nutze gemacht werden. Eine

Farbunterabtastung ist bei RGB nicht moglich, deshalb ist YCbCr besser fur Vide-

odatenkompression geeignet. In Abbildung 2.4 ist eine Darstellung fur Farbunterab-

tastung zu sehen. Die Kreise entsprechen einem Helligkeitsbildpunkt und die Kreuze

ein Cb- und Cr-Bildpunkt. Das Abtastverhaltnis 4:2:0 ist bei den in dieser Arbeit be-

handelten Videostandards sehr verbreitet.

1upload.wikimedia.org/wikipedia/commons/d/d9/Barns grand tetons YCbCr separation.jpg,

27.08.2016

8

Abbildung 2.4: Abtastverhaltnisse bei Farbsignalen [Kau16]

2.1.2 Entropiecodierung

Huffman-Codierung

Die Huffman Codierung, welche 1952 von David Huffman vorgestellt wurde, spie-

gelt eine Zuordnung von Codeworter mit minimaler Redundanz wieder. Hierbei wird

ein prafix-freier Code eingesetzt, welcher sich als Code definiert, bei dem kein an-

deres Codewort den Beginn eines anderen Codewortes bildet. Verbesserte Raten

der Codierung werden gegenuber Codewortern mit konstanter Lange erreicht, weil

Elemente, die eine hohe Wahrscheinlichkeit besitzen mit kurzen Codewortern defi-

niert werden und Elemente, mit geringer Wahrscheinlichkeit mit langen Codewortern

[Kau16].

Arithmetische Codierung

Im Gegensatz zur Huffman-Codierung und allen anderen Prafixcodes kann eine

arithmetische Codierung eine mittlere Codewortlange errreichen, die kleiner als 1

ist. Dies wird durch das Konzept erreicht, dass mehrere Symbole zu einem Code-

wort zusammengefasst werden. Bei einem prafixfreiem Code wird jedem einzelnem

Symbol ein Codewort zugeordnet.


Fur die Codierung mussen die Auftrittswahrscheinlichkeiten der einzelnen Symbo-

le bekannt sein2. Anschließend konnen Intervalle fur die verschiedenen Symbole

aufgestellt werden. Durch die hohe Genauigkeit, die fur die Intervallgrenzen notig

ist, wird der technische Aufwand sehr hoch. Zudem muss ein komplettes Codewort

ubertragen werden, bevor das erste Bit decodiert werden kann [Str09].

Aus diesen Grunden mussen die Vor- und Nachteile der Huffman und arithmeti-

schen Codierung, je nach Anwendung gegeneinander abgewagt werden, um eine

optimale Losung zu finden.

2.1.3 Diskrete Cosinus-Transformation

Bei der Audiodaten-Codierung wird eine Fourier-Transformation angewendet, um

ein abgetastetes Signal in den Frequenzraum zu transformieren. Allerdings konnen

bei der Fourier-Transformation komplexe Werte nach der Transformation auftreten.

Da Videodaten nur reelle Werte haben, wird die Diskrete Cosinus Transformati-

on (DCT) eingesetzt, welche nur reelle Koeffizienten nach der Transformation ergibt.

Die DCT wandelt einen 2-Dimensionales Bild in eine 2-Dimensionale Matrix mit

Ortsfrequenzen um. Die DCT vom Typ II ist in den Videostandards sehr verbrei-

tet.

In (2.1) [Kau16] wird die Rucktransformation (IDCT) in den abgetasteten Raum be-

rechnet. Die Variable c wird wie in der untersten Gleichung berechnet. u und v sind

die Koordinaten im Ortsfrequenzraum (x → u, y → v) und N gibt die Große der

DCT-Transformation an.

f(x, y) =N−1∑u=0

N−1∑v=0

c (u) · (v) · F (u, v) · cos(π · u · (2x+ 1)

2 ·N

)· cos

(π · v · (2y + 1)

2 ·N

)(2.1)

2Dies gilt auch fur die Huffman-Codierung

10

mit c(i) =

√

1N

i = 0√2N

i > 0

Abbildung 2.5: Basisfunktionen der 8x8 DCT3

Bei der DCT werden Korrelationen innerhalb eines Einzelbildes ausgenutzt. Das

heißt bei tiefen Frequenzen in der Ortsebene ergeben sich große Bildstrukturen und

langsame Helligkeitsubergange. Bei hohen Frequenzen handelt es sich um detail-

reiche Strukturen mit meist abrupten Ubergangen. Der Wert in der linken oberen

Ecke entspricht dem Gleichanteil [Sch13]. Diese Effekte konnen auch in Abbildung

2.5 beobachtet werden. Die vertikalen Ortsfrequenzen steigen von links nach rechts

an und die horizontalen Ortsfrequenzen von oben nach unten. Allerdings kann allein

durch die DCT noch keine Kompression erreicht werden.

3https://upload.wikimedia.org/wikipedia/commons/2/24/DCT-8x8.png vom 05.08.2016


2.1.4 Quantisierung

-4 -3 -2 -1 1 2 3 4

-4

-3

-2

-1

1

2

3

4

Abbildung 2.6: Gerade gleichformige Quantisierungskennlinie. Die Differenz zwi-schen orangener und blauer Linie entspricht dem Quantisierungsfehler

Die skalare Quantisierung weist jedem einzelnem Wert x einen quantisierten Wert

xq zu. Je nach Anzahl der zur Verfugung stehenden Bits gibt es 2n Stufen (n = An-

zahl Bits). Mit einer großeren Anzahl an Quantisierungsstufen ist der Rekonstruk-

tionsfehler, der bei der Zuweisung von xq zu y entsteht, geringer. In Abbildung 2.6

ist ein Beispiel fur eine skalare Quantisierung zu sehen. Die horizontale Achse ent-

spricht x und die vertikale Achse dem quantisierten Wert xq. Die Differenz zwischen

den beiden Linien entspricht dem Quantisierungsfehler.

Der Quantisierungsparameter (QP) wird in Videostandards eingesetzt, um die Qual-

titat eines Bildes an Hand einer Zahl einstellbar zu machen. Je kleiner der QP ist,

desto besser ist die Qualitat des Bildes. Durch die großere Anzahl der Stufenzahl ist

die benotigte Datenmenge viel großer. Die objektive Beschreibung der Bildqualititat

wird in der Bild- und Videocodierung mit Hilfe des Spitzen-Signal-Rausch-Verhaltnis

(engl. Peak-Signal-to-Noise-Ratio (PSNR)) beschrieben.

12

Die mathematische Berechnung des PSNR ist in Formel (2.2) zu finden [Kau16].

PSNR [dB] = 10 · log10A2

σ2e

(2.2)

mitσ2e = Pe − µ2

e

furµe = 0 : σ2e =

1

MN

M−1∑m=0

N−1∑n=0

(x (m,n)− xq (m,n))2

σ2e entspricht der mittleren quadratischen Abweichung (MSE, mean squared error)

des quantisierten Bildes zum Originalbild. A ist der maximalen Amplitude des Origi-

nalsignals (meistens gilt A = 255). M spiegelt die Breite des Bildes wider und N die

Hohe des Bildes.

2.1.5 Lauflangencodierung

Die Lauflangencodierung kann mit Hilfe eines Zig-Zag-Musters (siehe Abbildung

2.7), die Vorteile der DCT und der anschließenden Quantisierung optimal nutzen.

Beim Zig-Zag-Muster wird aus einer zweidimensionalen Matrix ein eindimensiona-

ler Vektor. Eine Umwandlung ist notwendig, weil der Bitstrom ebenfalls nur eine

Dimension hat.

In Kapitel 2.1.3 wurde der Zusammenhang festgestellt, dass der Anteil der hohen

Frequenzen4, die innerhalb eines Bildes auftreten, sehr gering sind. Durch die dar-

auf folgende Quantisierung werden Koeffizienten, deren Betrag knapp uber Null

liegt, zu Null quantisiert. Das Zig-Zag-Muster arbeitet die Diagonalen einer Matrix

nacheinander ab. Durch den Vorteil der DCT und Quantisierung konnen beim Zig-

Zag-Muster viele Nullen hintereinander erfasst werden.

4Die Frequenzen der Koeffizienten nehmen diagonal von der linken oberen Ecke bis zur rechten

unteren Ecke zu.


Abbildung 2.7: Reihenfolge eines Zig-Zag-Scans, rechte Abb. [Kau16]

Die Lauflangencodierung greift diese Eigenschaft auf und gibt in der Codierung an,

wie viele Nullen zwischen zwei Zahlen, die ungleich Null sind, auftreten. Nach der

Lauflangencodierung wird mit einer Entropiecodierung fortgefahren.

2.1.6 Bewegungsschatzung und Bewegungskompensation

Die bisher vorgestellten Methoden der hybriden Videocodierung beschranken sich

auf ein einzelnes Bild. Diese Art der Codierung wird Intra-Codierung genannt. Die

Schatzung von Bewegungsvektoren kann eine hohere Kompression fur Videose-

quenzen erreichen, da neben der ortlichen Redundanz auch die zeitliche Redun-

danz minimiert wird.

In Abbildung 2.8 ist das sogenannte Block-Matching zu sehen. Dieses Prinzip der

Bewegungsschatzung stutzt sich auf die Annahme, dass benachbarte Punkte im

Bild die selbe Bewegungsrichtung haben. Fur die Bewegungsvektoren werden die

Luminanzwerte eines Bildes betrachtet.

14

Abbildung 2.8: Darstellung einer blockbasierten Bewegungsschatzung, [Str09]

Das Bild wird in gleich große Blocke aufgeteilt und fur jeden Block wird im Referenz-

bild nach dem am besten passenden Block gesucht. Dabei muss zwischen einer

maximal genauen Bewegungsschatzung und wenig Aufwand bei der Suche nach

dem besten Bewegungsvektor abgewogen werden. Diese Abwagung ist fur die De-

codierung eines Videos nicht von Relevanz, da bei der Encodierung diese Suche

ubernommen wird. Die Schatzung eines Bewegungsvektors wird in der Regel von

einem zeitlich fruheren Bild pradiziert. Bei einer bidirektionalen Pradiktion wird die

Vorwartspradiktion mit einer Ruckwartspradiktion erganzt [Str09].

Abbildung 2.9: Subpixel-Interpolation mit halben Pixeln [Kau16]


Mit Hilfe einer Subpixelschatzung kann die Bewegungsschatzung beim Block-Matching

verbessert werden. Das heißt neben den Verschiebungen um ganze Bildpunkte, gibt

es Verschiebungen um halbe oder viertel Pixel. In Abbildung 2.9 ist ein Darstellung

mit halben Pixeln zu sehen.

2.1.7 Intra-Pradiktion

Abbildung 2.10: Intra-Pradiktion von [4 x 4]-Blocken [Str09]

Bisher wurde die zeitliche Pradiktion von Blocken betrachtet. Bei der ortlichen Pradik-

tion von Blocken gibt es bei dem H.264-Videostandard neun verschiedene Richtun-

gen fur die Pradiktion, wie in Abbildung 2.10 zu sehen ist. Die Pradiktion wird aus

Blocken vorgenommen, die sich entweder uber dem betrachtetem Block oder links

von dem betrachteten Block befinden. Die genaue Berechnung der einzelnen Mo-

di kann in [Str09] nachgelesen werden. Der Modus 2 ist ebenfalls als DC-Modus

bekannt, weil bei dieser Art der Pradiktion alle Pixel den gleichen Wert haben. Bei

Modus 0 wird eine vertikale Voraussage und bei Modus 1 eine horizontale Pradikti-

on der Pixel ausgefuhrt. Die Modi 3 und 4 setzen eine diagonale Pradiktion der Pixel

ein.

16

2.1.8 In-Loop-Filter

In Abbildung 2.11 ist ein extremes Beispiel fur Blocking-Artefakte zu sehen. Diese

Blockbildung entsteht durch Quantisierung mit sehr wenigen Stufen. Um die Qua-

litat des Bildes zu steigern und die Artefakte zu minimieren setzt man sogenannte

Deblocking Filter ein. Die Filter werden an den horizontalen und vertikalen Block-

grenzen angewendet.

Abbildung 2.11: Einfluss von Blockartefaktenlinks: Original-Bild, rechts: Bild mit Blockartefakten durch Kompression

Die kunstlichen Blockkanten, die durch Quantisierung auftreten konnen, sollen ge-

filtert werden. Allerdings gibt es naturliche Blockkanten, bei denen die Differenz der

Bildpunkte viel großer ist, als der Quantisierungseffekt. Diese naturlichen Block-

kanten sollen nicht nachbearbeitet werden. Die Toleranz zwischen naturlicher und

kunstlicher Blockkante, kann durch die Starke der Filterung an den Kanten (engl.

Boundary Strength (BS)) variiert werden. Die Starke kann in einem Bereich von null

bis vier eingestellt werden. Bei einer Filter-Starke von null wird keine Filterung vor-

genommen.


Abbildung 2.12: Ausschnitt eines Bildsignals an einer Blockgrenze [Str09]

Ein Beispiel fur eine Blockgrenze kann in Abbildung 2.12 gesehen werden. Durch

das Einsetzen von Deblocking-Filtern steigt die subjektive Qualitat und bei qualitativ

gleicher Qualitat sinkt die Bitrat ungefahr um 5 bis 10 %. Allerdings steigt durch die

Filterung der Rechenaufwand des Decoders enorm und kann bis zu einem Drittel

des Rechenaufwands eines H.264-Decoders ausmachen [Str09].

Abbildung 2.13: Im linken Bild ist das Original-Bild und im rechtem Bild ist der Ein-fluss durch Ringing-Artefakte zu sehen 5

Der Videocodec HEVC bietet neben dem Deblocking-Fiter auch einen Sample Ad-

aptive Offset Filter (SAO-Filter), der Effekte wie Ringing minimieren soll. Ringing

entsteht vor allem an scharfen Kanten, wie in Abbildung 2.13, zu sehen ist. Der SAO-

Filter setzt zur Minimierung von Ringing zwei verschiedene Verfahren ein: Zum einen

gibt es den Edge Offset (EO) und zum anderen den Band Offset (BO) [SBS14].5Quelle: https://en.wikipedia.org/wiki/Ringing artifacts, 10.09.2016

18

2.2 Merkmale der Videostandards

Alle in dieser Arbeit behandelten Videostandards haben circa 90 Merkmale, au-

ßer das Modell des H.263 Codecs, welches 21 Merkmale beinhaltet. Die einzelnen

Merkmale konnen den Tabellen A.3, A.4, A.5 und A.6 aus dem Anhang entnom-

men werden. Eine Erklarung der einzelnen Merkmale kann aus folgenden Quellen

[Bow16], [HWD+16] und [Yon16] entnommen werden.

Fur ein besseres Verstandnis werden die Merkmale in folgende sechs Kategorien

aufgeteilt [HWD+16]:

• Offset (OFFSET)

• Intraframe Pradiktion (INTRA)

• Interframe Pradiktion (INTER)

• Transformation (TRANS)

• Codierung (COEFF)

• In-Loop Filter (ILF)

Das erste Merkmal (= Offset) der merkmalbasierten Modelle reprasentiert die Ener-

gie, die fur das Starten und das Beenden des Decodierprozesses notwendig ist. Die-

se Prozesse mussen nur ein einziges Mal fur ein Video ausgefuhrt werden, deshalb

ist fur dieses Merkmal standardmaßig eine Eins gesetzt. Neben dem Offset sind die

Anzahl der Bilder (z.B. I-Frame, P-Frame oder B-Frame) oder die Anzahl der Blocke

mogliche Merkmale dieser Kategorie.

Die Merkmale der INTRA Kategorie entsprechen allen Prozessen, die bei einer

Intraframe-Pradiktion fur einen Block ausgefuhrt werden.

2.2. MERKMALE DER VIDEOSTANDARDS 19

Durch Messungen konnte gezeigt werden, dass kleine Blocke im Vergleich zu großen

Blocken mehr Energie brauchen [HWD+16].

Ahnlich wie bei Intraframe Pradiktion (INTRA) Merkmalen werden bei Interframe

Pradiktion (INTER) Merkmalen die Prozesse nach verschiedenen Blockgroßen ein-

geteilt. Erganzt wird diese Kategorie um Merkmale der Bewegungsschatzung. Ne-

ben der Anzahl der zu pradizierenden Pixel werden genauso die Anzahl der Subpixel

(engle. Fractional Pel) gezahlt.

Die Inverse Diskrete Cosinus Transformation (IDCT) wird in dieser Kategorie als

Hauptfunktion angenommen. Hier wird, wie bei den Intra- und Inter-Pradizierten

Merkmalen, die Blockgroße beachtet.

Die Koeffizienten der Transformation werden, je nach Anzahl der benotigten Bits,

gezahlt und in die Kategorie COEFF eingeteilt.

Abschließend werden mit In-Loop Filtern (ILF) Merkmale behandelt, die versuchen

Blockartefakte mit Hilfe von Interpolation oder anderen Methoden zu minimieren.

Dies verbessert das PSNR und gleichzeitig entsteht ein subjektiv besserer Eindruck

der Bilder.

20

2.3 Das merkmalbasierte Modell

Abbildung 2.14: Ablauf der Evaluation [HSR+16] in vier Schritten: Bitstromanalyse,Messung der Edec, Training und Validation

Bevor die einzelnen Koeffizienten des merkmalbasierten Modelles bestimmt wer-

den konnen, mussen vier verschiedene Schritte erledigt werden, die in Abbildung

2.14 zu sehen sind. Zu Beginn werden die Haufigkeiten der einzelnen spezifischen

Merkmale (nf ) der Bitstrome bzw. der Videosequenzen bestimmt. Zudem muss die

Energie, die fur das Decodieren der jeweiligen Bitstrome notwendig ist, ermittelt wer-

den (vgl. Abbildung 2.16). Dann werden die spezifischen Energien uber das Training

und der ε uber eine Validierung herausgefunden. Das Training und die Validierung

werden in dieser Arbeit mit Hilfe einer 10-fachen Kreuzvalidierung durchgefuhrt. Im

Folgenden werden die einzelnen Schritte der Evaluation naher erlautert.

2.3. DAS MERKMALBASIERTE MODELL 21

2.3.1 Messungen

Abbildung 2.15: ZES ZIMMER LMG95 6

Abbildung 2.16: Messaufbau mit Span-nungsversorgung [HSR+16]

Die Decodierenergien wurden per Messung, wie in [HWK15] beschrieben, mit ei-

nem 1-Phasen Leistungsmessgerat ZES Zimmer LMG95 auf einem Pandaboard

bestimmt. In Abbildung 2.15 ist das Messgerat zu sehen und in Abbildung 2.16 ist

der Schaltaufbau der Messung zu sehen. V0 entspricht der Spannungsversorgung

und DEC dem decodierendem Gerat.

Die evaluierten Videosequenzen sind im Anhang A.1 in Tabelle A.1 und Tabelle A.2

zu finden. Die Unterteilung in Kategorien wird fur die Kombination von Merkmalen

von Bedeutung sein. In Tabelle 2.2 sind die Einstellungen im Encoder fur die ein-

zelnen Videostandards zu sehen. Aufgelistet werden die verwendete Software des

Encoders, die Konfiguration der Software, die verschiedenen eingesetzten Quanti-

sierungsparameter und die Anzahl der untersuchten Bitstrome.

6http://www.zes.com/var/zes/storage/images/produkte/praezisions-leistungsmessgeraete/lmg95/1267-

18-ger-DE/LMG95 zes w 800.png , 10.08.2016

22

H.263 H.264 HEVC VP9

Encoder TMN-2.0 JM-18.4 HM-16.4 lipvpx

Konfigurierung main baseline intra One-pass coding

PB main lowdelay Two-pass coding

extended lowdelay P

randomaccess

QP 5,10,15,20, 12,22,32,42 10,20,30,40 5,20,44,59

25,30,35

Bitstrome 350 408 544 272

Tabelle 2.2: Einstellung der Videosequenzen und Encoder [HWD+16]

In Abbildung 2.17 ist das Messergebnis einer Decodierung dargestellt. Die grune

Linie charakterisiert den Offset eines Mikrocontrollers (Leistung im Leerlauf), der

durch verschiedene Hintergrundprozesse oder Aktualisierungen im Speicher leicht

variiert. Mit Hilfe von Gleichung (2.3) [HSR+16] kann die Dekodierenergie bestimmt

werden.

Abbildung 2.17: Die Leistung bei der Decodierung eines Videos zwischen 0,5 s und22 s wird durch die blaue Linie dargestellt. Die Leerlauf-Leistung wird durch gruneLinie dargestellt [HSR+16]

Edec =

∫ T

t=0

Pdec (t) dt−∫ T

t=0

Pidle (t) dt (2.3)


2.3.2 Bitstrommerkmale

Edec = E0 +∑f=2

ef · nf (2.4)

Alle merkmalbasierten Modelle haben das Ziel die Differenz zwischen der geschatz-

ten Energie Edec und der tatsachlich gemessenen Energie Edec (Kapitel 2.3.1) mini-

mal zu halten. Das in Gleichung (2.4) vorgestellte Modell stellt die Grundidee des

Modells vereinfacht dar. Fur die Schatzung der Decodierenergie werden die spezifi-

schen Energien (efeature) der Merkmale mit den Haufigkeiten des Auftretens (nfeature)

multipliziert. Der Offset ist bei jedem merkmalbasiertem Modell als Merkmal enthal-

ten, deshalb beginnt f bei zwei.

Ein Bitstream-Merkmal ist als untergeordneter Prozess, der wahrend des Decodie-

rens ausgefuhrt wird, definiert. Dabei ist ein einzelner Prozess nicht auf eine einzige

Ausfuhrung beschrankt und benotigt die oben definierte spezifische Energie (ef ).

Diese ist bei allen Ausfuhrungen nahezu konstant. Mit Hilfe von Software im Deco-

der kann bestimmt werden, wie oft welcher bzw. mit wie vielen genutzten Bits ein

Prozess ausgefuhrt wird. Diese quantitative Zahl entspricht dem oben genannten nf

[HSR+16]. Wie oft ein In-Loop-Filter mit einer spezifischen Starke eingesetzt wurde,

kann ein mogliches Merkmal sein. Ein anderes kann angeben, wie viele Koeffizien-

ten nach DCT und Quantisierung ungleich Null sind.

Die in Abbildung 2.18 dargestellte lineare Regression (= blaue Linie) lasst das Ziel,

die minimale quadratische Abweichung zu erreichen, erkennen. Der Punkt bei X=78

verschiebt die Kurve der linearen Regression nach oben, da ein Fehler an diesem

Punkt eine großere Auswirkung hat. Die Steigung a der orangen Gerade wurde

durch die Division des Mittelwertes von x durch den Mittelwert von y bestimmt.

24

-

0 20 40 60 80 100

X

0

10

20

30

40

50

60

70

80

90

Y

Lineare Regression

lineare Regression

y = a · x

Abbildung 2.18: Beispiel fur eine lineare Regression

2.3.3 Koeffizientenbestimmung und Kreuzvalidierung

Modellparameter

Fur die Bildung eines Modelles mit n-Dimensionen wird die Funktion ’lsqcurvefit’ aus

Matlab eingesetzt. Diese Funktion entspricht der Methode der kleinsten Quadrate

und findet Losungen sowohl fur nicht-lineare, als auch fur lineare Optimierungspro-

bleme. In Gleichung (2.5) [Mat] ist die mathematische Definition des Problems zu

sehen.

minx||F (x,x)− y||22 = min

x

∑i

(F (x,xi)− yi

yi

)2

(2.5)


Tabelle 2.3: Modell zu H.263 mit spezifischen Energien

In Tabelle 2.3 sind die spezifischen Energien der Merkmale fur den Videostandard

H.263 zu sehen. Dieser Videocodec hat mit 21 Merkmalen die wenigsten Merkmale

und ist fur die Darstellung der Probleme des allgemeinen Modells am besten geeig-

net. Bei neun von 21 Merkmalen fallt auf, dass diese negative spezifische Energie

haben. Im physikalischen Sinne gibt es keine negative Energie, weil es keinen Pro-

zess gibt, der mehr Energie bei seiner Durchfuhrung erhalt, als eingesetzt wurde.

Negative Energie widerspricht folglich dem Energieerhaltungssatz, deshalb wird in

dem Modell von spezifischen Energien ausgegangen.

Spezifische Großen haben immer einen Bezug auf eine gemeinsame Große. Die

elektrische Energie ist die Bezugsgroße des merkmalbasierten Modells und diese

wird in Joule angegeben. Eine negative spezifische Energie eines Merkmals be-

deutet im Kontext eines Decoders, dass der Prozess weniger elektrische Energie

26

umwandelt, als ein anderes Merkmal mit positiver spezifischer Energie oder weni-

ger negativer spezifischer Energie. Wenn die Merkmale richtig interpretiert werden

und die Wechselwirkungen den reellen Umstanden entsprechen, dann kann da-

durch ’Strom gespart’ 7werden [HSR+16].

10-fache Kreuzvaldierung

Abbildung 2.19: Illustration einer 10-fachen Kreuzvaldierung

Eine sinnvolle Methode, die die Menge aller Sequenzen in Trainings- und Testdaten

unterteilt, bildet die 10-fache Kreuzvalidierung. Bei dieser wird die komplette Daten-

menge in zehn moglichst gleich große Untermengen aufgeteilt, die jeweils disjunkt

sind. Die Aufteilung der Untermengen erfolgt zufallig, das heißt jede Sequenz ist in

genau einer Untermenge. Aus jeweils neun Untermengen werden in jeder Iteration

die Koeffizienten des merkmalbasierten Modelles bestimmt und auf die verbleibende7Wissenschaftlich Korrekt: weniger elektrische Energie wird umgewandelt


Untermenge wird der mittlere Schatzfehler evaluiert. Dies wird zehn Mal wiederholt

und die Fehler der einzelnen Iterationen uber alle Iterationen gemittelt. Eine Ver-

anschaulichung der 10-fachen Kreuzvalidation ist in Abbildung 2.19 zu sehen. Mit

Hilfe der Kreuzvalidierung kann die Gefahr einer Uberanpassung des Modelles mini-

miert werden und gleichzeitig jede Sequenz genau einmal zur Evalierung eingesetzt

werden.

Der mittlere Schatzfehler ε

Die Berechnung des mittleren Schatzfehlers (ε) wird bei allen Videostandards wie

in Gleichung (2.7) und der relative Schatzfehler (ε) wie in Gleichung (2.6) berechnet

[HSR+16]. Der mittlere Schatzfehler entspricht dem gemittelten relativen Schatzfeh-

ler, bei demm dem Index des Bitstroms und M der gesamten Anzahl der evaluierten

Bitstrome entspricht.

ε =Edec − Edec

Edec

(2.6)

ε =1

M

M∑m=1

|εm| (2.7)

28

2.3.4 Das erweiterte merkmalbasierte Modell

Zusammenfassend kann nun das allgemeine merkmalbasierte Energiemodell (2.4),

wie in Gleichung (2.8) erweitert werden.

Edec = E0 +∑

OFFSET

eOFFSET · nOFFSET

+∑

INTRA

eINTRA · nINTRA

+∑

INTER

eINTER · nINTER

+∑

TRANS

eTRANS · nTRANS

+∑

COEFF

eCOEFF · nCOEFF

+∑ILF

eILF · nILF

(2.8)

KAPITEL 3. EINFLUSS DER TRAININGSDATEN 29

Kapitel 3

Einfluss der Trainingsdaten

Der Einfluss der Trainingsdaten wurde durch die Auswahl einer bestimmten gemein-

samen Eigenschaft, wie zum Beispiel QP oder Konfiguration des Codierers, reali-

siert. Die Daten des HEVC-Modells wurden fur die Evaluation ausgewahlt, da fur

diesen Videostandard am meisten Messdaten vorliegen. Die Trainingsdaten besit-

zen folglich nur die gleichen Eigenschaften und werden in Abbildung 3.1 durch Bar1

und Bar3 reprasentiert. Die Balken werden bis zu einem ε von 10% dargestellt, weil

ein Modell mit einem ε jenseits von 30% keine Aussagekraft und im Bereich zwi-

schen 10% und 30% keine Werte hat.

Das Modell mit allen Merkmalen (Bar1 und Bar2) hat bei der Validierung des kom-

pletten Datensatzes nur einmal weniger als 30% fur ε ergeben, folglich ist bei diesen

der Einfluss der Trainingsdaten gering.

Das verkleinerte Modell mit 17 Merkmalen hat bei der Art der Codierung ebenfalls

keine guten Schatzfehler, allerdings sind die Schatzfehler der Trainingsdaten, die

auf einen gemeinsamen Quantisierungsparameter zuruckgreifen, viel besser. Die

mittleren Schatzfehler aller Sequenzen bewegen sich zwischen 6% und 10 %.

Bei genauerer Betrachtung der relativen normierten Energien aus Abbildung 3.2

werden die guten Schatzungen fur die Quantisierungsparameter untermauert. Der

großte Teil der geschatzten Energien befindet sich im Bereich zwischen der 0,9- und

1,1-fachen Energie, der gemessen Energie einer Sequenz.

30

QP10 QP20 QP30 QP40 Intra Lowdelay Lowdelay_P Randomaccess

Mitt

lere

r S

chät

zfeh

ler

[%]

0

1

2

3

4

5

6

7

8

9

10Bar1Bar2Bar3Bar4

Abbildung 3.1: Evaluation des Einflusses der Trainingsdaten auf den mittlerenSchatzfehler ε. Bei Bar1 und Bar2 wurde auf alle Merkmale des HEVC-Modells eva-luiert. Bar3 und Bar4 wurde auf Modell mit Merkmalen [1, 6, 19, 22, 32, 35, 52, 54,60, 62, 67, 70, 75, 83, 84, 85, 87] evaluiert.Bar1, Bar3: ε der TrainingsdatenBar2, Bar4: ε aller Daten

Somit kann fur einen einzelnen Quantisierungsparameter eine gute Allgemeingultig-

keit angenommen werden. Zwar sind die mittleren Schatzfehler bei den unterschied-

lichen Konfigurationen des Videocodecs geringer, allerdings gilt dies nicht fur die

mittleren Schatzfehler der kompletten Daten. Hier treten Fehler von bis zu 408% auf.

Die hohen Fehler aus der Konfiguration des Codecs lassen sich durch deren Eigen-

schaften erklaren. Bei der Konfiguration ’Intra’ werden alle Pradiktion ausschließlich

Intra-Pradiziert und daher konnen Inter-Pradizierte Merkmale nicht berechnet wer-

den.

Von einer schlechten Qualtitat des Videos kann nicht auf eine schlechte Qualitat

der Schatzung zuruckgeschlossen werden. In Abbildung 3.1 hat der QP40 die beste

Schatzung fur die gesamten Daten.

31

Sequenzen0 50 100 150 200 250 300 350 400 450 500

Êde

c /

Ede

c

0

0.2

0.4

0.6

0.8

1

1.2

1.4

1.6

1.8

2

QP10QP20QP30QP40intralowdelaylowdelay_Prandomaccess

Abbildung 3.2: Relative Energien ˆEdec

Edecder einzelnen Sequenzen werden nach deren

Wert aufsteigend sortiert, als Datensatz wird das verkleinertes HEVC-Modell ausAbbildung 3.1 eingesetzt

Mit einem QP von 40 konnen schnellere Decodierungen ausgefuhrt werden, als

mit einem niedrigerem QP. Aus diesen Ergebnissen lasst sich schließen, dass bei

vielen Merkmalen moglichst viele verschiedene Eigenschaften und Konfigurationen

gemessen werden sollen. Durch Variation der Trainingsdaten ist ersichtlich, dass

eine große Variation von verschieden Videosequenzen und Einstellungen der ein-

zelnen Videosequenzen (z.B. Anzahl der Bilder, QPs) sehr wichtig fur ein gutes

merkmalbasiertes Modell sind. Die guten Ergebnisse der Quantisierungsparame-

ter erlauben die Vereinfachung bei Messungen, die entweder von der Zeit her oder

durch den Speicherplatz begrenzt sind. Fur eine moglichst schnelle Messung ist

es erlaubt einen hohen Quantisierungsparameter zu wahlen. Bei einem QP von 40

wurde bei den Messungen die besten Ergebnisse erreicht.

32 KAPITEL 4. ANSATZE DER MERKMALSELEKTION

Kapitel 4

Ansatze der Merkmalselektion

Taglich werden die Datenmengen der Datenbanken des Internets großer. Alle 20

Monate verdoppelt sich die gesamte Datenmenge der Datenbanken des Internets

[WFH11]. Bei einer so gigantischen Datenflut wird die Differenz zwischen der Gene-

rierung und dem Verstehen der Daten immer großer. Mit Hilfe von Computern kann

aus riesigen Datensatzen innerhalb von kurzer Zeit viel Information gewonnen wer-

den. Dafur sind allerdings spezielle Algorithmen notwendig, die Datenbanken auf

spezielle Eigenschaften analysieren konnen. Die Selektion von Merkmalen spielt

hierbei eine große Rolle, denn durch die Reduktion von Datenmengen kann die

Genauigkeit des Modells gesteigert und vor allem Speicherplatz gespart werden.

Zudem ist ein Modell mit weniger Merkmalen leichter verstandlich und ubersichtli-

cher, als ein Modell mit sehr vielen Merkmalen [Mla06].

Generell kann zwischen einer Kombination von Merkmalen (engl. Feature Merging

(FM)) und einer Selektion von Merkmalen zu einer Untermenge (engl. Feature Sub-

set Selection (FSS)) unterschieden werden. Bei der FSS wird versucht irrelevante

und redundante Merkmale zu entfernen und relevante Merkmale zu entdecken. Ziel

der FSS ist es eine moglichst optimale Schatzung des Modells zu erreichen. In

Abbildung 4.1 ist eine Unterscheidung der Merkmale nach deren Einfluss auf das

Modell zu sehen. Die exakten Anteile der einzelnen Kategorien konnen variieren

und sollen ein grobes Verstandnis geben.

33

Irrelevante Merkmale sind unwichtig fur die Qualitat1 des Modells oder verschlech-

tern den Schatzfehler. Redundante Merkmale sind zwar ebenfalls unwichtig in Be-

zug auf die Qualitat des Modells, allerdings haben diese keinen negativen Einfluss

auf die Qualitat. Relevante Merkmale sind essenziell wichtig fur das merkmalbasier-

te Modell. Eine optimales Modell wurde nur aus relevanten und gleichzeitig nicht-

redundanten Merkmalen bestehen. Die Vernachlassigung von relevanten Variablen

wird als Unteranpassung (engl. underfitting) bezeichnet und bei zu vielen Variablen

besteht die Gefahr der Uberanpassung (engl. overfitting) [BEPW16].

33%

33%

20%

14%

Irrelevante MerkmaleSchwach relevante und redundante MerkmaleSchwach relevante nicht-redundante MerkmaleStark relevante Merkmale

Abbildung 4.1: Veranschaulichung der Relevanz, Redundanz und Irrelevanz vonMerkmalen [BCSMAB15]

Nachfolgend werden verschiedene Suchstrategien und Ansatze der Merkmalselek-

tion vorgestellt. Abschließend wird kurz die Kombination von Merkmalen erklart.

1Qualitat bezieht sich im Zuge dieser Arbeit auf den mittleren Schatzfehler

34

4.1 Suchstrategien und Ansatze der Feature Subset

Selection

4.1.1 Suchstrategien

Die nun betrachteten Ansatze konnen durch ihre Suchstrategie unterschieden wer-

den. Bei einer Vorwarts-Selektion (engl. Forward Selection (FS)) wird mit einer lee-

ren Menge an Merkmalen begonnen, die Schritt fur Schritt ein oder mehrere Merk-

male hinzufugt. Bei einer Ruckwarts-Eliminierung (engl. Backward Elimination (BE))

wird mit einer Menge, die aus allen Merkmalen besteht, begonnen. Diese Menge

wird iterativ verkleinert. Eine Kombination aus FS und BE bildet die Schrittweise-

Vorwarts-Selektion (engl. Forward Stepwise Selection (FStS)) oder die Schrittweise-

Ruckwarts-Eliminerung (engl. Backward Stepwise Elimination (BStE)). Bei einer 2-

1-FStS wird zweimal hintereinander ein Merkmal hinzugefugt und danach ein Merk-

mal entfernt. Analog dazu verhalt sich eine 2-1-BStE, die zuerst zwei Merkmale

entfernt und anschließend wieder ein Merkmal hinzugefugt. Die Anzahl der Merk-

male, die hinzugefugt/entfernt werden, kann beliebig gestaltet werden. Die funfte

Suchmoglichkeit, die in dieser Arbeit nicht weiter betrachtet wird, bildet die Random

Mutation. Bei dieser Suchstrategie wird eine zufallige Untermenge an Merkmalen

ausgewahlt und dann zufallig Merkmale hinzugefugt oder entfernt bis eine vorher

bestimmte Anzahl an Iteration erreicht oder ein zuvor definiertes Kriterium erfullt

wird.

4.1.2 Ansatze der FSS

Wrapper

Beim Wrapper wird auf jede mogliche Teilmenge ein Lernalgorithmus angewen-

det und eine Untermenge mit dem besten Schatzfehler wird ausgewahlt. Da kei-

ne Eigenschaften des Datensatzes betrachtet werden, wird die Suche wie bei ei-

4.1. SUCHSTRATEGIEN UND ANSATZE DER Feature Subset Selection 35

ner ’Black-Box’ ausgefuhrt. Durch das schrittweise Ausprobieren der Untermengen

braucht der Wrapper-Ansatz verhaltnismaßig lange um kleinere Untermengen zu

bestimmen. Außerdem kann das Modell so stark angepasst werden, dass es Ube-

ranpassung erreicht [BCSMAB15]. In Kapitel 5.1 werden alle Algorithmen erklart,

die den Wrapper-Ansatz anwenden.

Filter

Beim Filter-Ansatz werden Eigenschaften des Datensatzes als Kriterium fur die Re-

levanz eines Merkmals gewahlt. Die Selektion wird vor dem Training ausgefuhrt,

deshalb kann bei einem Filter-Ansatz davon ausgegangen werden, dass dieser we-

nig Rechenaufwand im Vergleich zu einem Wrapper-Ansatz hat. Durch die Selektion

aus den Eigenschaften des Datensatzes ist eine gute Verallgemeinerung geboten,

allerdings konnen relevante Merkmale aussortiert werden.

r =

n ·n∑

i=1

(xi · yi)−n∑

i=1

xi ·n∑

i=1

yi√√√√(n · n∑i=1

x2i −(

n∑i=1

xi

)2)·

(n ·

n∑i=1

y2i −(

n∑i=1

yi

)2) (4.1)

In diesem Fall wurde der Filter-Ansatz mit Hilfe des Maßkorrelationskoeffizient nach

Pearson angewendet. Dieser wird wie in Formel (4.1) [Z88] berechnet und ist zwi-

schen -1 und 1 normiert. In Abbildung 4.2 sind mogliche Grafiken fur verschiedene

Maßkorrelationskoeffizienten nach Pearson zu sehen. Zwar konnen mit dem Korre-

lationskoeffizienten nicht-lineare Zusammenhange nicht erfasst werden, allerdings

wird hier angenommen, dass nur lineare Abhangigkeiten vorhanden sind. Ferner

mussten die Merkmale fur die Berechnung nach Pearson normalverteilt sein, aber

diese Bedingung wird ebenso vernachlassigt und als gegeben angenommen.

36

Abbildung 4.2: Pearson-Korrelationskoeffizient2

Bei einem Maßkorrelationskoeffizienten von 1 bzw. -1 kann davon ausgegangen

werden, dass zwei Merkmale direkt proportional bzw. indirekt proportional zueinan-

der sind. Wird ein Merkmal entfernt, dann ist das andere Merkmal nach der Validie-

rung entsprechend proportional mehr. Somit ’verliert’ der Datensatz keine Informati-

on durch die Selektion des Merkmals. Die Selektion von Merkmalen wird folgender-

maßen ausgefuhrt: zuerst werden alle Merkmale, die in Matlab einen Korrelations-

koeffizienten von NaN haben, aussortiert. Diese Merkmale haben keinen Maßkor-

relationskoeffizienten, weil deren Werte bei allen Sequenzen gleich groß sind. Eine

Ausnahme bildet der Offset, weil dieser absichtlich immer gleich groß ist. Sind diese

Merkmale aussortiert, wird nach dem betragsmaßig großten Korrelationskoeffizien-

ten gesucht und dieser wird nun aussortiert.

Embedded

Der Embedded-Ansatz selektiert Merkmale wahrend des Trainings aus und ist ahn-

lich zum Wrapper-Ansatz. Dieser Ansatz wird in der Arbeit nicht weiter verfolgt.

2https://upload.wikimedia.org/wikipedia/commons/0/02/Correlation examples.png, 22.08.2016

4.2. KOMBINATION VON MERKMALEN 37

4.2 Kombination von Merkmalen

Die Kombination von einzelnen Merkmalen zu einem neuen Merkmal (engl. Feature

Merging (FM)) wurde mit Hilfe der in Kapitel 2.2 eingefuhrten Kategorien durch-

gefuhrt. Die Kombination stellt eine Alternative zum Entfernen von Merkmalen dar.

Der Vorteil der Kombination besteht in dem Verfahren selbst, denn es geht keine

Information aus den Merkmalen verloren.

Merkmale aus den Kategorien INTRA, INTER und TRANS konnen untereinander

uber die eigene Kategorie hinaus kombiniert werden, wenn diese eine spezifische

Blockgroße haben. Ansonsten ist die Kombination auf Merkmale aus der gleichen

Kategorie beschrankt. Merkmale der Kategorie COEFF wurden zusammengefasst,

falls sie eine ahnliche Funktion haben.

Eine Kombination von Merkmalen mit spezifischen Blockgroßen wird durch eine ge-

wichtete Addition durchgefuhrt. Wenn die Blocke eine unterschiedliche Große ha-

ben, dann wird der großere Block mit dem Faktor multipliziert, so oft er in den klei-

neren Block passt. Bei einem [4 x 4]-Block und einem [16 x 16]-Block werden die

gezahlten Daten des Merkmals mit der großeren Blockgroße mit 16 3 multipliziert.

Schließlich werden die beide Merkmale addiert. Bei Merkmalen ohne Blockgroße

werden sie ohne Gewichtung addiert.

In Kapitel 5.2 werden verschiedene Alghorithmen vorgestellt, die im Zuge dieser

Arbeit entstanden sind.

3Rechnung: (16 · 16) / (4 · 4)

38KAPITEL 5. ALGORITHMEN DER KOMBINATION UND SELEKTION DER

MERKMALE

Kapitel 5

Algorithmen der Kombination und

Selektion der Merkmale

In diesem Kapitel werden die einzelnen Algorithmen aufgezeigt und erste Ergebnis-

se gezeigt. Zuerst werden die Algorithmen der Selektion erlautert, die am umfang-

reichsten sind.

5.1 Algorithmen der Selektion

Die FSS fur den Filter-Ansatz wurde bereits im vorherigen Kapitel erklart, deshalb

beschranken sich die folgenden Ansatze auf den Wrapper-Ansatz. Eine Außnahme

bildet der ’Brute-Force’-Ansatz, dieser wurde allerdings nur fur den H.263 Codec

angewendet.

Brute-Force

Die Brute-Force-Methode ist die einfachste Methode, um ein optimales Modell zu

finden. Diese Methode braucht allerdings im Gegenzug die meiste Rechenleistung

beziehungsweise Zeit. Beim Brute-Force wird versucht fur ein Problem alle Moglich-

keiten zu testen. Die Anzahl der benotigten Iterationen konnen aus Gleichung (5.1)

5.1. ALGORITHMEN DER SELEKTION 39

entnommen werden.

N∑k=1

(N

k

)=

N∑k=1

(N !

k! (N − k)!

)(5.1)

Bei 21 Merkmalen, wie bei dem Modell zu H.263, gibt es 2097151 Moglichkeiten

und bei 99 Merkmalen, wie bei VP9, sind es 6, 3383 · 1029 Moglichkeiten. Mit der

Annahme, dass 20 Trillarden Iterationen pro Sekunde ausgefuhrt werden, wird un-

gefahr ein Jahr benotigt, um alle moglichen Konstellationen zu testen. Eine solche

Rechenleistung ist extrem hoch und mit der heutigen Technologie nicht erreichbar.

Zum Vergleich hat der Brute-Force von 21 Merkmalen in der getesteten Matlab-

Implementierung funf Tage fur alle Moglichkeiten gebraucht. Die besten Schatzfeh-

ler fur die Anzahl der Merkmale von eins bis 21 ist Abbildung 5.1 dargestellt.

Im oberen Diagramm kann der typische Verlauf fur Merkmalselektion gesehen wer-

den. Aus den in Kapitel 4 vorgestellten Kategorien, in die die Merkmale eingeteilt

werden konnen, wird dieser Verlauf verstandlich. Der Einfluss von stark relevan-

ten Merkmalen ist an der linken Seite der horizontalen Achse zu sehen. Die ersten

sechs sind fur das Modell sehr wichtig, damit es eine gute Schatzung ergeben kann.

Jedes entfernte Merkmal fuhrt zu einem ε, der um ein vielfaches großer ist als der

vorherige Schatzfehler. Aus dem unterem Diagramm kann der Einfluss der schwach

relevanten und irrelevanten Merkmale abgelesen werden. In den merkmalbasier-

ten Modellen, die zwischen sechs und zwolf Merkmale haben, sind die schwach

relevanten, nicht-redundaten Merkmale zu erkennen. In diesem Bereich wird der

mittlere Schatzfehler zwar besser, allerdings ist die Verbesseung sehr gering und im

oberen Diagramm nicht zu erkennen. Bei 13 Merkmalen ist nur ein schwach relevan-

tes, redundantes Merkmal zu erkennen, da der ε hier weder besser noch schlechter

wird. Ab 14 Merkmalen wird das merkmalbasierten Modell stetig schlechter und so-

mit handelt es sich ab hier um die irrelevanten Merkmale.

40

Anzahl der Merkmale2 4 6 8 10 12 14 16 18 20

Mitt

lere

r S

chät

zfeh

ler

[%]

0

5

10

15

20

25

30H263 - Brute Force

Anzahl der Merkmale6 8 10 12 14 16 18 20

Mitt

lere

r S

chät

zfeh

ler

[%]

1.62

1.64

1.66

1.68

1.7

1.72

1.74

1.76

1.78

1.8

1.82H263 - Brute Force

Abbildung 5.1: Brute-Force zu H.263 Modell, fur jede Anzahl an Merkmalen wird derniedrigste mittlere Schatzfehler ausgewahlt


Ruckwarts-Eliminierung Wrapper

Abbildung 5.2: Darstellung einer BE. Die roten Felder sind nicht in der Datenmengeenthalten und werden fur die Koeffizientenberechnung nicht benotigt.

Bei der Ruckwarts-Eliminierung wird bei jedem Durchlauf ein Merkmal entfernt. In

Abbildung 5.2 wird ein Durchlauf dargestellt, bei jeder Iteration wird der mittlere

Schatzfehler berechnet und hiernach wird das Modell mit dem niedrigsten Schatz-

fehler fur die weiteren Durchlaufe ausgewahlt. In Abbildung 5.3 ist ein Diagramm

einer BE zu sehen. Wird dieser Algorithmus mit dem optimalen Brute-Force vergli-

chen, dann kann bei mehr als elf Merkmalen ein fast gleiches Ergebniss beobachtet

werden.

Anzahl der Merkmale8 10 12 14 16 18 20

Mitt

lere

r S

chät

zfeh

ler

[%]

1.62

1.64

1.66

1.68

1.7

1.72

1.74

1.76

1.78H263 - Selection

BEBruteForce

Abbildung 5.3: Diagramm zeigt eine Ruckwarts-Eliminierung und einen Brute-Force,welche fur den Videocodec H.263 ausgefuhrt wurden

42

Wrapper Vorwarts Selektion

Abbildung 5.4: Darstellung einer FS. Die roten Felder sind nicht in der Datenmengeenthalten und werden fur die Koeffizientenberechnung nicht benotigt.

Die Vorwarts-Selektion wahlt einen ahnlichen Ansatz wie die BE. Der Unterschied

liegt in Richtung der Selektion. Die FS beginnt mit einer leeren Menge und fugt in

jedem Durchlauf ein Merkmal hinzu. Eine Darstellung zu diesem Ansatz ist in Abbil-

dung 5.4 zu sehen.

Die zu evaluierende Anzahl der Moglichkeiten ist bei der FS und der BE gleich und

ist im Vergleich zu Brute-Force-Methode viel kleiner. Diese wird aus folgender Sum-

me berechnet:

N∑k=1

k

N gibt die Anzahl der Merkmale des Modells an. Die Durchfuhrung wurde beim Mo-

dell zu H.263 231 Moglichkeiten und zu VP9 4950 Moglichkeiten testen. Im Vergleich

zum Brute-Force ist diese Anzahl der Moglichkeiten uberschaubar.

Der Ansatz der FS ist immer schneller ausgefuhrt als der Ansatz der BE, weil die FS

fur Modelle mit wenigen Merkmalen mehr Moglichkeiten hat. Mit Hilfe einer Gewich-

tung, die angibt mit wie vielen Merkmalen eine Moglichkeit evaluiert wurde, kann

dieser Unterschied mathematisch beschrieben werden. In der Gleichung (5.2) wird


die Anzahl der gewichteten Moglichkeiten fur BE berechnet. Analog wird in der Glei-

chung (5.3) die Gewichtung fur FS berechnet. Bei der FS konnen Abhangigkeiten

zwischen Merkmalen schlechter als bei der BE erfasst werden [RK97].

N∑k

k · (k − 1) (5.2)

N∑k

k · (N− k + 1) (5.3)

Wrapper FStS und BStE

Vorwärts-Selektion Rückwärts-EliminierungVorwärt-Selektion

Abbildung 5.5: Darstellung einer 2-1-FStS, bei einer 2-1-BStE werden Vorwarts-Selektion und Ruckwarts-Eliminierung vertauscht

Bei den schrittweisen Ansatzen werden BE und FS kombiniert und wie in Abbildung

5.5 ausgefuhrt. Der Rechenaufwand ist durch die bidirektionale Selektion viel hoher.

44

5.2 Algorithmen der Kombination

Auf die Kombination von Merkmalen wurde in Abschnitt 4.2 kurz eingegangen. Nun

werden Algorithmen vorgestellt, die Merkmale kombinieren. Fur die Legenden in

Diagrammen in Anhang B werden die Abkurzungen in Klammern definiert.

Die einfache Kombination (SiMe)

Dieser Algorithmus betrachtet zuerst die einzelnen Kategorien. Innerhalb einer Ka-

tegorie werden der Reihe nach fur jedes Merkmal alle moglichen Kombinationen

getestet. Danach wird der minimale mittlere Schatzfehler aus allen Kombinationen

bestimmt. Wird der Schatzfehler geringer, dann wird die beste Kombination fur die

weitere Betrachtung ubernommen. Ist die Schatzung ohne eine Kombination besser,

wird mit dem nachsten Merkmal der Kategorie fortgefahren. Wenn alle Merkmale

einer Kategorie bearbeitet wurden, wird die nachste Kategorie behandelt. Sobald

keine Verbesserung mehr eintritt, wenn alle Kategorien behandelt wurden, wird die

Kombination von Merkmalen verpflichtend. Diese Kombination wird solange aus-

gefuhrt bis jede Kategorie aus einem Merkmal besteht.

Die Brute-Force Kombination (BrMe)

Dieser Algorithmus ist kein Brute-Force wie bei der FSS, dennoch werden hier alle

Moglichkeiten eines Durchlaufs betrachtet. Anders zum SiMe-Ansatz wird nicht nur

ein Merkmal mit anderen Merkmalen kombiniert, sondern es werden die Moglich-

keiten aller Merkmale zur Kombination betrachtet. Ansonsten wird der Algorithmus

ahnlich zum SiMe-Algorithmus durchgefuhrt.

5.2. ALGORITHMEN DER KOMBINATION 45

The Mergic Selection (MeSe)

Hier wird das Grundprinzip von SiMe mit einer BE kombiniert. Die BE wird aus-

gefuhrt, sobald einmal alle Kategorien bearbeitet wurden. Sonsten ist der Algorith-

mus wie der SiMe-Algorithmus.

Die Brute Force Kombination mit Ruckwarts-Eliminierung (BrMeBE)

Der letzte vorgestellte Algorithmus funktioniert wie MeSe. Bei diesem werden, wie

beim BrMe, alle Moglichkeiten eines Durchlaufs betrachtet. Der BrMeBe ist der re-

chenaufwandigste Algorithmus der Kombinationsalgorithmen.

46 KAPITEL 6. EVALUATION DER ALGORITHMEN

Kapitel 6

Evaluation der Algorithmen

Nachfolgend werden die Algorithmen auf deren Effizienz und Qualitat untersucht.

Hierzu wird allgemein der beste mittlere Schatzfehler ermittelt und die Algorith-

men untereinander fur jeden Videocodec verglichen. Anschließend wird bei aus-

gewahlten Algorithmen der Zusammenhang zwischen den Ergebnissen und den

ausgewahlten Merkmalen hergestellt.

In Tabelle 6.1 werden verschiedene Eigenschaften der Algorithmen aufgelistet. Ne-

ben den besten Ergebnissen werden auch andere Eigenschaften betrachtet. Ur-

sprunglich hatten die Videostandards folgende Schatzfehler und Anzahl an Merk-

malen:

• H.263: 21 Merkmale, 1,6810 %

• H.264: 88 Merkmale, 2,9557 %

• HEVC: 90 Merkmale, 4,4496 %

• VP9: 99 Merkmale, 1,0149 %

Als akzeptable Schatzfehler werden alle Modelle, deren Schatzfehler niedriger als

10% sind, angenommen. In Anhang B konnen die Diagramme der einzelnen Algo-

rithmen zu jedem Videostandard gesehen werden.

47

H.263 H.264

[1] [2] [3] [4] [5] [1] [2] [3] [4] [5]

FS 1,656% 13 5 3 46 s 2,758% 31 7 4 51 m

BE 1,631% 11 5 4 56 s 2,833% 33 11 8 63 m

FStS 1,656% 12 5 3 247 s 2,736% 30 7 4 158 m

BStE 1,637% 12 6 3 245 s 2,761% 31 8 4 270 m

BruteForce 1,625% 12 5 3 5 d

Filter 1,681% 20 11 5 3 s 2,955% 63 16 14 25 s

SiMe 1,673% 16 11 11 56 s 2,769% 45 9 8 59 m

MeSe 1,639% 11 3 2 119 s 2,730% 41 9 6 89 m

BrMe 1,662% 15 11 11 66 s 2,740% 54 9 8 799 m

BrMeBE 1,639% 12 5 3 251 s 2,738% 61 8 6 35 h

HEVC VP9

[1] [2] [3] [4] [5] [1] [2] [3] [4] [5]

FS 4,136% 53 8 7 20 m 0,820% 51 18 5 17 m

BE 4,034% 51 7 7 37 m 0,798% 63 19 4 21 m

FStS 4,112% 72 8 7 61 m 0,766% 50 16 5 56 m

BStE 4,050% 46 7 6 69 m 0,775% 55 17 4 70 m

Filter 4,426% 87 32 31 23 s 1,010% 98 87 24 24 s

SiMe 3,786% 30 13 13 19 m 0,707% 37 22 8 42 m

MeSe 3,762% 28 4 3 27 m 0,705% 37 13 2 53 m

BrMe 3,828% 39 13 13 537 m 0,693% 47 14 8 29 h

BrMeBE 3,760% 32 5 4 506 m 0,686% 43 12 2 893 m

Tabelle 6.1: Daten der Algorithmen und Videocodecs. [1]: minimaler Schatzfehler;[2]: Anzahl der Merkmale bei minimalen Schatzfehler; [3]: Anzahl der Merkmale beiweniger als doppelten ursprunglichen Schatzfehler; [4]: Anzahl der Merkmale beiweniger als 10% Schatzfehler; [5]: Zeitliche Komplexitat des Algorithmus (d=Tage,h=Stunden, m=Minuten, s=Sekunden)

48

6.1 Evaluation der FSS-Algorithmen

Zunachst werden ich die Vorteile der Filter noch einmal kurz erlautert und auf deren

praktischen Einsatz bei der Merkmalselektion eingegangen.

Die kurze zeitliche Komplexitat der Filter, welche einen großen Vorteil des Filter-

Ansatzes darstellt, kann bei der praktischen Ausfuhrung der Algorithmen erkannt

werden. Innerhalb von maximal 30 Sekunden konnten alle Merkmale der Reihe nach

aussortiert werden und ein mittlerer Schatzfehler fur das Modell bestimmt werden.

Der zeitliche Aufwand kann auf wenige Sekunden reduziert werden, wenn vor der

Messung bekannt ist, wie viele Merkmale nach der Filterung bestehen sollen.

Der Filter eignet sich zusatzlich gut die Daten auf ungewollte Eigenschaften zu un-

tersuchen und daraufhin diese zu entfernen. Eine redundante Eigenschaft der Trai-

ningsdaten sind Merkmale, die immer die gleiche spezifische Anzahl (nf) haben.

Diese beinhalten fur das Modell keinen aussagekraftigen Einfluss. Das Merkmal

’Offset’ deckt den Einfluss dieser praktisch ab, da der Offset bei jedem Videostan-

dard in jeder Sequenz auf eins gesetzt wird. Durch diese Filterung konnen red-

undante Merkmale, die keinen Einfluss auf den Schatzfehler haben, von der Mo-

dellbildung entfernt werden. Der Wrapper-Ansatz hat in der Theorie keine direkte

Moglichkeit diese Merkmale aus der Menge zu entfernen. Bei H.264-Videostandard

gibt es insgesamt 24 Merkmale, die bei jeder Sequenz eine Null gesetzt haben und

somit redundante Merkmale sind1. In Abbildung 6.1 kann dieser Effekt bei einer BE

gesehen werden. Bei dem gelb markiertem Bereich sind von diesen 24 redundanten

Merkmalen 22 Merkmale enthalten. Die anderen beiden Merkmale wurden bereits

vor diesem Bereich aussortiert. Bei der FS ist der gleiche Effekt wie bei der BE zu

erkennen. Von der 33. Iteration bis zu 56. Iteration (von 33 bis 56 auf der x-Achse

der Graphen) werden alle 24 Merkmale der Reihe nach entfernt und verschlechtern1Merkmale mit Nullen: 14, 17, 19, 40-53, 76, 78, 80-84

6.1. EVALUATION DER FSS-ALGORITHMEN 49

durch das Entfernen den mittleren Schatzfehler nicht. Bei der Iteration 31 wird das

beste Ergebnis fur die FS erzielt.

Somit sind Merkmale, die bei jeder Sequenz den gleichen Wert haben, nicht wichtig

fur ein optimales Ergebnis. Eine Filterung dieser Merkmale zu Beginn eines Durch-

laufs ist sinnvoll.

Die Algorithmen der Wrapper-Ansatze zeigen sehr gute Ergebnisse und konnten

Abbildung 6.1: BE bei H.264 mit Markierung einer Besonderheit

den ursprunglichen Schatzfehler minimieren. Im Folgenden werden die Ergebnis-

se aus Tabelle 6.1 naher betrachtet. Bei den besten Schatzfehlern zeigt sich, dass

alle Algorithmen sehr gut funktionieren und die Unterschiede der Ergebnisse be-

schranken sich auf ungefahr 0,1% Differenz, wie in Tabelle 6.1 zu erkennen ist. Bei

H.263 hat das beste Modell einer FSS einen Schatzfehler von 1,631%, der mit Hilfe

des BE-Algorithmus erreicht wurde. Der Brute-Force konnte einen Schatzfehler von

1,625% mit zwolf Merkmalen erreichen. Der absolute Unterschied zwischen bei-

den Schatzfehlern liegt bei 0,006%, somit hat der BE-Algorithmus fast die perfekten

Merkmale bestimmen konnen. Unter Betrachtung der zeitlichen Komplexitat der bei-

den Ansatze, lasst sich der Unterschied deutlich erkennen. Der Brute-Force hat fur

das perfekte Ergebniss knapp funf Tage benotigt und die BE hat fur das nahezu per-

50

fekte Ergebnis weniger als eine Minute benotigt. Folglich ist eine uber 7000-fache

langere Zeit notwendig um 0,005% besser zu werden. Zwar bietet der Brute-Force

die optimale Losung fur jedes Modell, allerdings ist die zeitliche Komplexitat deutlich

großer als die Optimierung des merkmalbasierten Modells.

Die Algorithmen, die nach dem Wrapper-Ansatz ausgefuhrt wurden, konnten inner-

halb von weniger als vier Stunden die komplette Evalution durchfuhren. Alle unidi-

rektionalen Ansatze, FS und BE, konnten innerhalb von maximal 63 Minuten aus-

gefuhrt werden (vgl. 6.1).

Der BE-Algorithmus hat beim Modell von HEVC ebenfalls den niedrigsten Schatz-

fehler erreicht. Dieser lag bei 4,034% und hat den Schatzfehler um 10% verringern

konnen. Bei den anderen beiden Videocodecs war der schrittweise Ansatz des FStS

am erfolgreichsten. Bei H.264 lag der kleinste Schatzfehler bei 2,736% und bei VP9

bei 0,766%. Der ursprungliche Schatzfehler konnte beim Modell des VP9 um 25%

verkleinert werden.

20 30 40 50 60 70 80 90Anzahl der Merkmale

4

4.1

4.2

4.3

4.4

4.5

4.6

4.7

4.8

4.9

5

Mitt

lere

r S

chät

zfeh

ler

[%]

HEVC - Selektion

BEFSFStSBStE

Abbildung 6.2: Graph des Wrapper-Ansatze bei HEVC


In Abbildung 6.2 sind die Ergebnisse der Algorithmen im Bereich von 18 bis 90

Merkmalen zu sehen. Die schwarze gestrichelte Linie soll zur Orientierung dienen

und ist auf der Hohe von 4,45% eingezeichnet, dies entspricht dem Schatzfehler

von HEVC mit allen 90 Merkmalen. Wenn der ursprungliche Schatzfehler als obere

Grenze fur die Selektion angenommen wird, kann durch die FSS auf maximal 30

Merkmale reduziert werden. Folglich werden weniger als ein Drittel der Merkmale

fur die weitere Betrachtung des merkmalbasierten Modells benotigt. Auch bei den

anderen merkmalbasierten Modellen werden bei der FSS zwei Drittel der Merkmale

entfernt. In Abbildung 6.2 kann ein interessanter Verlauf bei der Kurve der FStS fest-

gestellt werden. Der Schatzfehler wird bei einer Betrachtung von links nach rechts

kleiner und ab 47 Merkmalen wird dieser wieder großer. Bei 68 Merkmalen kommt

das Modell bei einem lokalem Maximum von einem Schatzfehler von 4,271 % an.

Der Schatzfehler fallt nach diesem Maximum auf 4,123% bei 74 Merkmalen.

Fur akzeptable Schatzfehler muss ein Modell nicht viele Merkmale haben, wie aus

den Spalten 4 in Tabelle 6.1 abgelesen werden kann. Ein Modell mit einem Schatz-

fehler unter 10% benotigt weniger als 10 Merkmale, abgesehen von dem Filter-

Ansatz. Betrachtet man die Merkmale bei der FS fur ein Modell von starker Rele-

vanz sind. Das Modell zu HEVC besteht aus folgenden 7 Merkmalen: 3, 4, 22, 60,

63, 70, 84 (vgl. Tabelle A.4)

Werden die zugehorigen Kategorien der Merkmale betrachtet, dann ist jede der 6

definierten Kategorien aus Kapitel 2.2 enthalten. Zudem ist die Kategorie INTER

ist 2-fach vertreten und alle anderen Kategorien nur einmal. Diese Beobachtung

kann auch bei den anderen Videostandards machen. Folglich ist die Einteilung in

Kategorien sinnvoll und ein Modell kann kleinere Schatzfehler erzielen, wenn jede

Kategorie mit mindestens einem Merkmal vertreten ist. Die Kategorien sind, wie aus

Kapitel 4.2 bekannt, fur die Kombination von Merkmalen wichtig, welche im folgen-

dem Kapitel evaluiert werden.

52

Weitere Evaluation des Filter-Ansatzes

15 20 25 30 35 40 45 50 55 60

Anzahl der Merkmale

3

4

5

6

7

8

9

10

Mitt

lere

r S

chät

zfeh

ler

[%]

H.264 - Filter

Abbildung 6.3: Graph des Filter-Ansatzes bei H.264

30 40 50 60 70 80 90

Anzahl der Merkmale

0

1

2

3

4

5

6

7

8

9

10

Mitt

lere

r S

chät

zfeh

ler

[%]

VP9 - Filter

Abbildung 6.4: Graph des Filter-Ansatzes bei VP9


In den Abbildungen 6.3 und 6.4 sind zwei Kurvenverlaufe des Filter-Algorithmus

zu sehen. Das Modell des H.264 kann mit einem Schatzfehler von 3,79% bis auf

18 Merkmale verkleinert werden. Fur eine Verschlechterung des Schatzfehler um

0,8% werden 70 Merkmale entfernt. In der Abbildung 6.3 ist der geringe Anstieg

des Schatzfehlers von 64 bis 18 Merkmalen zu erkennen. Allerdings konnen die-

se guten Ergebnisse nicht immer erzielt werden, wie in Abbildung 6.4 zu sehen ist.

Beim Vergleich der Korrelationskoeffizienten (vgl. Abb. 6.5) fallt auf, dass die Ko-

effizienten bei H.264 fruher betragsmaßig kleiner werden als bei VP9. Somit lasst

sich kein direkter Zusammenhang zwischen der Eliminierung von Merkmalen mit

betragsmaßig großen Korrelationskoeffizienten und einem niedrigem Schatzfehler

finden. Fur weitere Untersuchungen ware es interessant, andere Eigenschaften der

Merkmalsmengen zu betrachten bzw. des Algorithmus des Filter-Ansatzes zu erwei-

terten, um fur alle Videostandards bessere Schatzungen zu erzielen. Weiter kann

der Zusammenhang zwischen Korrelation und der Schatzung von Merkmalen ge-

nauer betrachtet werden.

54

0 10 20 30 40 50 60 70 80 90 100

Nach Betrag sortierte Korellationskoeffizienten

0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

Bet

rag

Kor

ella

tions

koef

fizie

nt

Vergleich der Korrelationskoeffizienten

H.264VP9

Abbildung 6.5: Vergleich der Korrelationskoeffizienten von H.264 und VP9

6.2 Evaluation der Kombination-Algorithmen

In Kapitel 5.2 wurden vier Algorithmen vorgestellt, die eine Kombination von Merk-

malen ausfuhren. Die besten Schatzfehler der Modelle aus Tabelle 6.1 zeigen, dass

mit den kombinierten Algorithmen noch bessere Ergebnisse als bei den FSS-Algorithmen

erzielt werden konnen. Bei HEVC konnte der Schatzfehler von 4,032%, der bei

der BE erzielt wurde, auf 3,760% reduziert werden. Zudem wurde die Anzahl der

benotigten Merkmale fur dieses Modell von 51 auf 32 Merkmale reduziert, aller-

dings ist die zeitliche Komplexitat um das 13-fache großer.

6.2. EVALUATION DER KOMBINATION-ALGORITHMEN 55

20 30 40 50 60 70 80

Anzahl der Merkmale

3.5

4

4.5

5

5.5

6

6.5

Mitt

lere

r S

chät

zfeh

ler

[%]

HEVC - Merge

SiMeMeSeBrMeBrMeBE

Abbildung 6.6: Graph der Kombination-Algorithmen bei HEVC

Bei dem Modell zum H.264-Videostandard konnte keine große Verbesserung des

Schatzfehlers erreicht werden und die Anzahl der Merkmale war bei den besten

Ergebnissen um ca. zehn Merkmale großer. Auch hier haben die Algorithmen viel

mehr Zeit benotigt als die Selektion. Eine großere Verbesserung als bei H.264 gab

es bei VP9. Dort konnte der Brute-Force mit BE einen Schatzfehler von 0,686%

erreichen und mit 43 Merkmalen erreicht werden. Bei diesem Algorithmus ist die

zeitliche Komplexitat um ein vielfaches großer.

Nur das Modell des H.263 konnte durch die Kombination der Merkmale keine Ver-

besserung erzielt werden. Dies kann durch die geringe Anzahl an Merkmalen ver-

ursacht werden.

56

6.3 Untermengen der FSS

In der Tabelle 6.2 werden mogliche Untermengen fur die FSS-Algorithmen gelistet.

Dabei werden zwei verschiedene Anwendungen ausgewertet. Neben der genaue-

sten Schatzung wird auch ein Modell mit moglichst wenigen Merkmalen und guter

Schatzung vorgestellt. Die Nummern der Merkmale konnen in den Tabellen aus Ka-

pitel A entnommen werden. Die Tabelle 6.2 gibt den ausgewahlten Algorithmus, die

Anzahl der Merkmale, die Nummern der Merkmale und den Schatzfehler an.

6.3. UNTERMENGEN DER FSS 57

H.263 H.264

Beste Schatzung BruteForce: 11; 1,625% FStS: 30; 2,736%

1 5 6 8 9 1 2 4 5 6

10 13 15 17 19 7 10 12 13 15

21 16 20 21 23 24

31 32 33 35 54

56 64 67 70 72

73 75 85 86 87

Wenige Merkmale BruteForce: 4; 1,625% BStE: 8 ; 4,4722%

& gute Schatzung 1 5 15 20 1 2 4 5 10

32 54 86

HEVC VP9

Beste Schatzung BE: 50; 4,034% FStS: 50; 0,766%

1 5 6 7 9 1 2 5 7 8

11 12 13 14 15 9 14 15 16 18

16 17 18 19 20 21 24 29 30 31

21 22 25 26 28 35 37 40 42 43

31 32 35 38 39 47 52 54 56 57

51 52 54 59 60 58 59 60 61 63

62 64 67 68 70 65 71 72 74 75

72 73 75 76 77 76 79 80 82 83

78 79 80 82 83 87 88 90 91 92

84 85 86 87 90 93 95 96 98 99

Wenige Merkmale BE: 10; 6,4496% BStE: 10 ; 3,7369%

& gute Schatzung 1 22 35 52 60 1 47 52 54 56

62 70 83 84 85 59 85 90 93 99

Tabelle 6.2: Untermengen fur verschiedene Anwendungen bei FSS

58 KAPITEL 7. FAZIT UND AUSBLICK

Kapitel 7

Fazit und Ausblick

Im Rahmen dieser Arbeit konnte gezeigt werden, dass es geeignete Untermengen

fur das merkmalbasierte Modell gibt und wie diese bestimmt werden konnen. Durch

den Einfluss der Trainingsdaten konnte gezeigt werden, dass die Auswahl der Trai-

ningssequenzen auf einen bestimmten Quantisierungs-Parameter beschrankt wer-

den kann.

Neben dem Wrapper-Ansatz wurde der Filter-Ansatz naher vorgestellt. Mit verschie-

denen Algorithmen wurden Untermengen von Merkmalen bestimmt. Der Zusam-

menhang zwischen der Korrelation und Qualitat der Schatzung kann beim Filter-

Ansatz fur weitere Untersuchungen naher betrachtet werden. Sinnvoll ist es den

Filter-Ansatz zu erweitern und weitere Eigenschaften von Merkmalen in die Betrach-

tung einzugliedern.

Alle Wrapper-Algorithmen zeigen gute Ergebnisse und sind in etwa vergleichbar. Fur

eine moglichst optimale Schatzung empfiehlt es sich, die Schrittweisen-Algorithmen

(FStS oder BStE) einzusetzen. Durch die zeitlich geringere Komplexitat ist es rat-

sam, den FStS-Algorithmus fur die beste Schatzung zu nutzen. Ist die verfugbare

Zeit fur einen FStS nicht ausreichend, dann empfiehlt sich der BE-Algorithmus an.

Fur moglichst wenige Merkmalen bietet sich der BStE-Algorithmus an, wenn der

zeitliche Aufwand nicht begrenzt ist. Fur eine zeitliche Begrenzung und moglichst

wenige Merkmale bietet sich der FS-Algorithmus an.

Bei den Kombinations-Algorithmen konnten bessere Ergebnisse als bei den Wrapper-

Algorithmen erreicht werden. Der Algorithmus MeSe bewies sich als schnell, im Ver-

gleich zu den anderen Kombinations-Algorithmen.

Abbildung 7.1: Graphische Oberflache fur FSS

Fur weitere Untersuchungen ist es sinnvoll eine passende Implementierung fur den

Embedded-Ansatz zu finden und anschließend diese zu implementieren. In Abbil-

dung 7.1 ist eine graphische Oberflache fur die Algorithmen der FSS zu sehen. Bei

der Oberflache kann der Video-Codec, der gewahlte Ansatz der FSS und weitere

Einstellungen ausgewahlt werden. Eine Erweiterung der Oberflache fur die Algorith-

men der Kombination und die Einbindung des Embedded-Ansatzes ware empfeh-

lenswert.

ANHANG A. 61

Anhang A

Video-Sequenzen und Merkmale der

Videostandards

A.1 Video-Sequenzen

62

Name Klasse Bilder Auflosung [pixel]PeopleOnStreet A 8 2560 x 1600Traffic A 8 2560 x 1600BasketballDrive B 40 1920 x 1080BQTerrace B 40 1920 x 1080Cactus B 40 1920 x 1080Kimono B 40 1920 x 1080ParkScene B 40 1920 x 1080BasketballDrill C 40 832 x 480BQMall C 40 832 x 480PartyScene C 40 832 x 480RaceHorses C 40 832 x 480BasketballPass D 40 416 x 240BlowingBubbles D 40 416 x 240BQSquare D 40 416 x 240FourPeople E 40 1280 x 720Johnny E 40 1280 x 720KirstenAndSara E 40 1280 x 720vidyo1 E 40 1280 x 720vidyo3 E 40 1280 x 720vidyo4 E 40 1280 x 720SlideEditing F 40 1280 x 720SlideShow F 40 1280 x 720ChinaSpeed F 40 1024 x 768BasketballDrillText F 40 1280 x 720Akiyo G 30 176 x 144Crew G 50 176 x 144Miss America G 50 176 x 144Coastguard G 50 176 x 144News G 30 176 x 144Foreman H 30 352 x 288Tennis H 30 352 x 288Car Phone H 50 352 x 288Bus H 50 352 x 288Suzie H 30 352 x 288

Tabelle A.1: Liste der Videosequenzen mit Anzahl der Bilder, Klasse, und Auflosungfur H.264, HEVC und VP9 [HSR+16]

63

Name Bilder Auflosung [pixel]akiyo 50 352 x 288alm 50 352 x 288ballet 50 352 x 288basketball 50 352 x 288bream2 50 176 x 144bus 50 352 x 288city splinescaled 50 352 x 288crew 50 176 x 144cut 50 352 x 288discovery animation 50 352 x 288eckenhard 50 176 x 144flower 50 352 x 288foreman 50 352 x 288hall monitor 50 176 x 144hockey 50 352 x 288huber2 ah 50 352 x 288lts 50 352 x 288marbles 50 352 x 288mobile calendar 50 176 x 144night splinescaled 50 352 x 288salesman 50 176 x 144sheriff splinescaled 50 352 x 288shuttle splinescaled 50 352 x 288smpte29 table tennis 50 352 x 288smpte36 ferris wheel 50 352 x 288

Tabelle A.2: Liste der Videosequenzen mit H.263-Codierung mit Anzahl der Bilderund Auflosung [HSR+16]

64

A.2 H.263 Merkmale

Nummer Name Kategorie Blockgroße

1 Offset 1 -

2 I-Frame 1 -

3 P-Frame 1 -

4 B-Frame 1 -

5 I-Frame-Intra 2 [16 x 16]

6 P-Frame-Intra 2 [16 x 16]

7 P-Frame-Inter 3 [16 x 16]

8 P-Frame-Inter4V 3 [8 x 8]

9 B-Frame-Intra 2 [8 x 8]

10 B-Frame-Inter 3 [8 x 8]

11 B-Frame-Inter4V 3 [8 x 8]

12 B-Frame-Bipred 3 [8 x 8]

13 MV Horizontal 3 -

14 MV Vertical 3 -

15 Fractional MV Interpolation 3 -

16 Number of Transformation 4 [8 x 8]

17 DCT-Coeff 5 -

18 DCT-Val 5 -

19 Tcoeff Escape 5 -

20 Tcoeff Non-Escape 5 -

21 Bytes of the Stream 5 -

Tabelle A.3: Liste der Merkmale des H.263 VideostandardsKategorie: 1 = OFFSET, 2 = INTRA, 3 = INTER, 4 = TRANS, 5 = COEFFEinheit: ’-’ entspricht einheitenloser Anzahl; [ x ] entspricht einer Blockgroße

A.3. H.264 MERKMALE 65

A.3 H.264 Merkmale

Nummer Name Kategorie Blockgroße1 Offset 1 -2 nFrames 1 -3 nSlices 1 -4 nBlocks 1 -5 CAVLC nCoeffs 5 -6 CAVLC coeffVal 5 -7 CAVLC MVD 5 -8 CAVLC MVD val 5 -9 CABAC nCoeffs 5 -10 CABAC coeffVal 5 -11 CABAC MVD 5 -12 CABAC MVD val 5 -13 - 15 intra VH 2 [16 x 16], [8 x 8], [4 x 4]16 - 17 intra diag 2 [16 x 16], [8 x 8]18 - 20 intra DC 2 [16 x 16], [8 x 8], [4 x 4]21 - 22 intra pla 2 [16 x 16], [4 x 4]23 intra PCM 2 [16 x 16]24 skip P 3 [16 x 16]25 skip B 3 [16 x 16]26 - 32 inter P 3 all33 - 39 inter B 3 all40 - 46 weighted inter P 3 all47 - 53 weighted inter B 3 all54 - 60 double interpolation 3 all61 - 67 single interpolation 3 all68 - 74 no interpolation 3 all75 - 76 transform 4 [4 x 4], [8 x 8]77 - 79 DC transform 4 [2 x 2], [2 x 4] o. [4 x 2], [4 x 4]80 - 82 ll transform 4 [4 x 4], [8 x 8], [16 x 16]83 scaling list type1 4 [4 x 4]84 scaling list type2 4 [8 x 8]85 Bs0 6 -86 Bs1 6 -87 Bs2 6 -88 Bs3 6 -

Tabelle A.4: Liste der Merkmale des H.264 Videostandards [Bow16]Kategorie: 1 = OFFSET, 2 = INTRA, 3 = INTER, 4 = TRANS, 5 = COEFF, 6 = ILFEinheit: ’-’ entspricht einheitenloser Anzahl; [ x ] entspricht einer Blockgroße;all = [16 x 16], [16 x 8], [8 x 16], [8 x 8], [8 x 4], [4 x 8], [4 x 4]

66

A.4 HEVC Merkmale

Nummer Name Kategorie Blockgroße1 Offset 1 -2 Islice 1 -3 PBslice 1 -4 intraCU 2 -5 - 8 intra pla 2 [32x32], [16x16], [8x8], [4x4]9 - 12 intra dc 2 [32x32], [16x16], [8x8], [4x4]13 - 16 intra hvd 2 [32x32], [16x16], [8x8], [4x4]17 - 20 intra ang 2 [32x32], [16x16], [8x8], [4x4]21 intra noMPM 2 -22 - 25 skip 3 [64x64], [32x32], [16x16], [8x8]26 - 29 merge 3 [64x64], [32x32], [16x16], [8x8]30 - 33 mergeSMP 3 [64x64], [32x32], [16x16], [8x8]34 - 36 mergeAMP 3 [64x64], [32x32], [16x16]37 - 40 inter 3 [64x64], [32x32], [16x16], [8x8]41 - 44 interSMP 3 [64x64], [32x32], [16x16], [8x8]45 - 47 interAMP 3 [64x64], [32x32], [16x16]48 - 51 fracpelHor 3 [64x64], [32x32], [16x16], [8x8]52 - 55 fracpelVer 3 [64x64], [32x32], [16x16], [8x8]56 - 59 HalfPel 3 [64x64], [32x32], [16x16], [8x8]60 inter bi 3 [4 x 4]61 inter MVD 3 -62 coeff 5 -63 coeffg1 5 -64 CSBF 5 -65 val 5 -66 - 69 TrIntraY 4 [32x32], [16x16], [8x8], [4x4]70 - 73 TrIntraC 4 [32x32], [16x16], [8x8], [4x4]74 - 77 TrInterY 4 [32x32], [16x16], [8x8], [4x4]78 - 81 TrInterC 4 [32x32], [16x16], [8x8], [4x4]82 TSF 4 [4 x 4]83 Bs0 6 -84 Bs1 6 -85 Bs2 6 -86 SAO Y B0 6 [64 x 64]87 SAO Y E0 6 [64 x 64]88 SAO C B0 6 [64 x 64]89 SAO C E0 6 [64 x 64]90 SAO allComps 6 [64 x 64]

Tabelle A.5: Liste der Merkmale des HEVC Videostandards [HSR+16]Kategorie: 1 =OFFSET, 2 =INTRA, 3 =INTER, 4 =TRANS, 5 = COEFF, 6 = ILFEinheit: ’-’ entspricht einheitenloser Anzahl; [ x ] entspricht einer Blockgroße

A.5. VP9 MERKMALE 67

A.5 VP9 Merkmale

Nummer Name Kategorie Blockgroße1 Offset 1 -2 nFrames 1 -3 nSuperBlock 1 [64 x 64]4 - 7 Intra DC 2 [4 x 4], [8 x 8], [16 x 16], [32 x 32]8 - 11 Intra HV 2 [4 x 4], [8 x 8], [16 x 16], [32 x 32]12 - 15 Intra TM 2 [4 x 4], [8 x 8], [16 x 16], [32 x 32]16 - 19 Intra D 2 [4 x 4], [8 x 8], [16 x 16], [32 x 32]20 - 28 Inter near nearest 3 inter all29 - 37 Inter new 3 inter all38 - 46 Inter zero 3 inter all47 MV compound 3 [4 x 4]48 - 56 Convolve copy 3 inter all57 - 65 Convolve hor ver 3 inter all66 - 74 Convolve ver 3 inter all72 - 83 Convolve hor 3 inter all84 - 87 Transform intra 4 [4 x 4], [8 x 8], [16 x 16], [32 x 32]88 - 91 Transform inter 4 [4 x 4], [8 x 8], [16 x 16], [32 x 32]92 nCoeff 5 -93 Coeff val 5 -94 LF ver 4 6 -95 LF ver 8 6 -96 LF ver 16 6 -97 LF hor 4 6 -98 LF hor 8 6 -99 LF hor 16 6 -

Tabelle A.6: Liste der Merkmale des VP9 Videostandards [Yon16]Kategorie: 1 =OFFSET, 2 =INTRA, 3 =INTER, 4 =TRANS, 5 = COEFF, 6 = ILFEinheit: ’-’ entspricht einheitenloser Anzahl; [ x ] entspricht einer Blockgroße;inter all = [4 x 4], [4 x 8] o. [8 x 4], [8 x 8], [8 x 16] o. [16 x 8], [16 x 16], [16 x 32] o.[32 x 16], [32 x 32], [32 x 64] o. [64 x 32], [64 x 64]

68 ANHANG B. DIAGRAMME DER ALGORITHMEN

Anhang B

Diagramme der Algorithmen

69

H.263-Wrapper

68

1012

1416

1820

Anz

ahl d

er M

erkm

ale

1.6

1.82

2.2

2.4

2.6

2.8

Mittlerer Schätzfehler [%]

H26

3 -

Sel

ekti

on

BS

tE

FS

Bru

te F

orce

FS

tS

BS

tE

70

H.264-Wrapper

2030

4050

6070

80

Anz

ahl d

er M

erkm

ale

2.7

2.8

2.93

3.1

3.2

3.3

3.4

3.5


H26

4 -

Sel

ekti

on

BE

FS

FS

tSB

StE

71

HEVC-Wrapper

2030

4050

6070

8090

Anz

ahl d

er M

erkm

ale

4

4.1

4.2

4.3

4.4

4.5

4.6

4.7

4.8

4.95


HE

VC

- S

elek

tio

n

BE

FS

BS

tEF

StS

72

VP9-Wrapper

20

30

40

50

60

70

80

90

An

zah

l de

r M

erk

ma

le

0.81

1.2

1.4

1.6

1.8


VP

9 -

Sel

ekti

on

BE

FS

FS

tS

BS

tE

73

H.263-Filter

46

810

1214

1618

Anza

hl d

er M

erkm

ale

012345678910 Mittlerer Schätzfehler [%]

H.26

3 - F

ilter

74

H.264-Filter

1520

2530

3540

4550

5560

Anza

hl d

er M

erkm

ale


H.26

4 - F

ilter

75

HEVC-Filter

3040

5060

7080

Anza

hl d

er M

erkm

ale


HEVC

- Fi

lter

76

VP9-Filter

3040

5060

7080

90

Anza

hl d

er M

erkm

ale


VP9

- Filt

er

77

H.263-Merge

68

1012

1416

1820

Anz

ahl d

er M

erkm

ale

1.6

1.7

1.8

1.92

2.1

2.2

2.3

Mittlerer Schätzfehler [%]H

263

- M

erg

e

SiM

eM

eSe

BrM

eV

oRe

BrM

eBE

78

H.264-Merge

2030

4050

6070

80

Anz

ahl d

er M

erkm

ale

2.53

3.54

4.55


H26

4 -

Mer

ge

SiM

eM

eSe

BrM

eB

rMeB

E

79

HEVC-Merge

2030

4050

6070

80

Anz

ahl d

er M

erkm

ale

3.54

4.55

5.56

6.5

Mittlerer Schätzfehler [%]H

EV

C -

Mer

ge

SiM

eM

eSe

BrM

eB

rMeB

E

80

VP9-Merge

2030

4050

6070

8090

Anz

ahl d

er M

erkm

ale

0.6

0.81

1.2

1.4

1.6

1.82


VP

9 -

Mer

ge

SiM

eM

eSe

BrM

eB

rMeB

E

ABBILDUNGSVERZEICHNIS 81

Abbildungsverzeichnis

1.1 Mobiler Datenverkehr pro Monat . . . . . . . . . . . . . . . . . . . . . 1

1.2 Umfrage zu gewunschten Funktionen eines Smartphones . . . . . . . 2

2.1 Blockschaltbild eines Videodecoders . . . . . . . . . . . . . . . . . . . 4

2.2 Bild mit gleichmaßiger Blockaufteilung . . . . . . . . . . . . . . . . . . 6

2.3 Aufteilung der einzelnen Komponenten Y, Cb und Cr aus einem Farbbild 7

2.4 Abtastverhaltnisse bei Farbsignalen . . . . . . . . . . . . . . . . . . . 8

2.5 Basisfunktionen der 8x8 DCT . . . . . . . . . . . . . . . . . . . . . . . 10

2.6 Gerade gleichformige Quantisierungskennlinie . . . . . . . . . . . . . 11

2.7 Reihenfolge eines Zig-Zag-Scans . . . . . . . . . . . . . . . . . . . . . 13

2.8 Darstellung einer blockbasierten Bewegungsschatzung . . . . . . . . 14

2.9 Subpixel-Interpolation mit halben Pixeln . . . . . . . . . . . . . . . . . 14

2.10 Intra-Pradiktion von 4 x 4-Blocken . . . . . . . . . . . . . . . . . . . . 15

2.11 Einfluss von Blockartefakten . . . . . . . . . . . . . . . . . . . . . . . . 16

2.12 Ausschnitt eines Bildsignals an einer Blockgrenze . . . . . . . . . . . 17

2.13 Darstellung von Ringing-Artefakten . . . . . . . . . . . . . . . . . . . . 17

2.14 Ablauf der Evaluation . . . . . . . . . . . . . . . . . . . . . . . . . . . 20

2.15 ZES ZIMMER LMG95 . . . . . . . . . . . . . . . . . . . . . . . . . . . 21

2.16 Messaufbau mit Spannungsversorgung . . . . . . . . . . . . . . . . . 21

2.17 Leistungsdiagramm einer Decodierung . . . . . . . . . . . . . . . . . . 22

2.18 Beispiel fur eine lineare Regression . . . . . . . . . . . . . . . . . . . 24

2.19 Illustration einer 10-fachen Kreuzvaldierung . . . . . . . . . . . . . . . 26

82

3.1 Evaluation des Einflusses der Trainingsdaten auf den mittleren Schatz-

fehler . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30

3.2 Relative Energien von einzelnen Sequenzen eines merkmalbasierten

Modells . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31

4.1 Veranschaulichung der Relevanz, Redundanz und Irrelevanz von Merk-

malen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33

4.2 Pearson-Korrelationskoeffizient . . . . . . . . . . . . . . . . . . . . . . 36

5.1 Graph eines Brute-Force zu H.263 . . . . . . . . . . . . . . . . . . . . 40

5.2 Darstellung einer BE . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41

5.3 Vergleich einer Ruckwarts-Eliminierung mit einem Brute-Force . . . . 41

5.4 Darstellung einer FS . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42

5.5 Darstellung einer 2-1-FStS . . . . . . . . . . . . . . . . . . . . . . . . 43

6.1 BE bei H.264 mit Markierung einer Besonderheit . . . . . . . . . . . . 49

6.2 Graph des Wrapper-Ansatze bei HEVC . . . . . . . . . . . . . . . . . 50

6.3 Graph des Filter-Ansatzes bei H.264 . . . . . . . . . . . . . . . . . . . 52

6.4 Graph des Filter-Ansatzes bei VP9 . . . . . . . . . . . . . . . . . . . . 52

6.5 Vergleich der Korrelationskoeffizienten von H.264 und VP9 . . . . . . 54

6.6 Graph der Kombination-Algorithmen bei HEVC . . . . . . . . . . . . . 55

7.1 Graphische Oberflache fur FSS . . . . . . . . . . . . . . . . . . . . . . 59

TABELLENVERZEICHNIS 83

Tabellenverzeichnis

2.1 Bezeichnung der Blockeinheiten und die großte/kleinste mogliche Block-

große . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

2.2 Einstellung der Videosequenzen und Encoder . . . . . . . . . . . . . . 22

2.3 Modell zu H.263 mit spezifischen Energien . . . . . . . . . . . . . . . 25

6.1 Daten der Algorithmen und Videocodecs . . . . . . . . . . . . . . . . . 47

6.2 Untermengen fur verschiedene Anwendungen bei FSS . . . . . . . . 57

A.1 Liste der Videosequenzen mit Anzahl der Bilder, Klasse, und Auflosung

fur H.264, HEVC und VP9 . . . . . . . . . . . . . . . . . . . . . . . . . 62

A.2 Liste der Videosequenzen mit H.263-Codierung mit Anzahl der Bilder

und Auflosung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63

A.3 Liste der Merkmale des H.263 Videostandards mit Kategorie und Block-

große . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64

A.4 Liste der Merkmale des H.264 Videostandards mit Kategorie und Block-

große . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65

A.5 Liste der Merkmale des HEVC Videostandards mit Kategorie und

Blockgroße . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66

A.6 Liste der Merkmale des VP9 Videostandards mit Kategorie und Block-

große . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67

84 LITERATURVERZEICHNIS

Literaturverzeichnis

[BCSMAB15] BOLON-CANEDO, Veronica ; SANCHEZ-MARONO, Noelia ; ALONSO-

BETANZOS, Amparo: Feature Selection for High-Dimensional Data -.

Berlin, Heidelberg : Springer, 2015

[BEPW16] BACKHAUS, Klaus ; ERICHSON, Bernd ; PLINKE, Wulff ; WEIBER, Rolf:

Multivariate Analysemethoden. Bd. 14. Springer, 2016

[Bow16] BOWEN, Dai: Implementierung eines Bitstrom-Analysierers fur H.264-

codierte Videos, FAU Erlangen-Nurnberg, Lehrstuhl fur Multimedia-

kommunikation und Signalverarbeitung, Masterarbeit, April 2016

[com] COMSCORE: Anzahl der Smartphone-Nutzer in Deutsch-

land in den Jahren 2009 bis 2016 (in Millionen). http:

//de.statista.com/statistik/daten/studie/198959/umfrage/

anzahl-der-smartphonenutzer-in-deutschland-seit-2010/

[Eri16] ERICSSON: Ericsson Mobility Report - June 2016. https://www.

ericsson.com/res/docs/2016/ericsson-mobility-report-2016.

pdf. Version: June 2016

[HSR+16] HERGLOTZ, C. ; SPRINGER, D. ; REICHENBACH, M. ; STABERNACK, B.

; KAUP, A.: Modeling the Energy Consumption of the HEVC Decoding

Process. In: IEEE Transactions on Circuits and Systems for Video

Technology (TCSVT) (2016)

LITERATURVERZEICHNIS 85

[HWD+16] HERGLOTZ, Christian ; WEN, Yongjun ; DAI, Bowen ; KRANZLER, Matt-

hias ; KAUP, Andre: A Bitstream Feature Based Model for Video De-

coding Energy Estimation. In: submitted to Picture Coding Symposi-

um (PCS). Nurnberg, Germany, Dec 2016

[HWK15] HERGLOTZ, C. ; WALENCIK, E. ; KAUP, A.: Estimating the HEVC De-

coding Energy Using the Decoder Processing Time. In: Proc. IEEE

Int. Symp. on Circuits and Systems (ISCAS). Lisbon, Portugal, May

2015, S. 513–516

[Kau16] KAUP, Prof.Dr.-Ing. A.: Image and Video Compression - Skriptum zur

Vorlesung. SS 2016

[Mat] MATLAB: lsqcurvefit. de.mathworks.com/help/optim/ug/

lsqcurvefit.html

[Mla06] Kapitel Feature Selection for Dimensionality Reduction.

In: MLADENIC, Dunja: Subspace, Latent Structure and Feature

Selection: Statistical and Optimization Perspectives Workshop,

SLSFS 2005, Bohinj, Slovenia, February 23-25, 2005, Revised

Selected Papers. Berlin, Heidelberg : Springer Berlin Heidelberg,

2006, S. 84–102

[RK97] RON KOHAVI, George H. J.: Wrappers for feature subset selection.

In: Artificial Intelligence 97, 1997, S. 273–324

[SBS14] SZE, Vivienne ; BUDAGAVI, Madhukar ; SULLIVAN, Gary J.: High Ef-

ficiency Video Coding. 1.Auflage. Springer International Publishing,

2014

[Sch13] SCHMIDT, Ulrich: Professionelle Videotechnik: Grundlagen, Filmtech-

nik, Fernsehtechnik, Gerate- und Studiotechnik in SD, HD, DI, 3D

(German Edition). Springer Vieweg, 2013

86

[Str09] STRUTZ, Tilo: Bilddatenkompression - Grundlagen, Codierung, Wa-

velets, JPEG, MPEG. 4. Aufl. Berlin Heidelberg New York : Springer-

Verlag, 2009

[WFH11] WITTEN, Ian H. ; FRANK, Eibe ; HALL, Mark A.: Data Mining: Prac-

tical Machine Learning Tools and Techniques. 3. Aufl. Amsterdam :

Elsevier, 2011

[Yon16] YONGJUN, Wen: Implementierung eines Bitstrom-Analysierers fur

VP9-codierte Videos, FAU Erlangen-Nurnberg, Lehrstuhl fur Multime-

diakommunikation und Signalverarbeitung, Masterarbeit, April 2016

[Z88] ZOFEL, Peter: Statistik in der Praxis. 2., uberarb. Aufl. Stuttgart :

Fischer, 1988

Download - Friedrich-Alexander-Universitat¨ Erlangen-Nurnberg¨ · H.263 Makroblock [16 x 16] / [8 x 8] H.264 Makroblock [16 x 16] / [2 x 2] HEVC CTU [64 x 64] / [4 x 4] VP9 Superblock [64

Top Related