03 multimedia analyse technologien - theoretische einführung ss 2012
DESCRIPTION
Theoretische Einführung zum Seminar "Multimedia Analyse Technologien" im Sommersemester 2012 am Hasso-Plattner-Institut, Universität Potsdam, Dr. Harald SackTRANSCRIPT
Die nichtkommerzielle Vervielfältigung, Verbreitung und Bearbeitung dieser Folien ist zulässig (Lizenzbestimmungen CC-BY-NC).
EINFÜHRUNG IN DIE VIDEO ANALYSE-TECHNOLOGIEN
Seminar: MULTIMEDIA ANALYSE-TECHNOLOGIEN
SeminarDr. Harald Sack / Jörg Waitelonis
Bernhard Quehl / Haojin Yang / Christian HentschelHasso-Plattner-Institut für Softwaresystemtechnik
1
Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam
2
Multimedia Analyse-Technologien
1. Motivation / Einführung (menschl. Wahrnehmung, Farbmodelle)
2. Digitalisierung von Bildern (Abtastung, Kompressionsverfahren, JPEG)
3. Videokodierung und -kompression (Subsamping, prediktive Kodierung, MPEG-Verfahren, Formate und Codecs)
4. Visuelle Analyse
1. Low-Level Processing (Filter, Kanten, morph. Operation, ...)
2. Bildbeschreibende Eigenschaften (Features: Norm, Histogramme, Entropie, LBP, Distanzmaße)
3. Analysemethoden (analytische Methoden, Lernverfahren)
4. High-Level Processing (Beispiele: Segmentierung, OCR, Faces, u. A. )
5. SEMEX Demo
6. naive Verfahren zur Key-Frame Extraction
2
Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam
Multimedia-Analyse-Technologien1.1 Multimedia und Kodierung
Multimediale Daten im Computer
•Definition Multimedia
•Kommen bei der Darstellung von Information mehrere, verschiedenartige Medien zum Einsatz, wie z.B. Text, Bild und Ton, so spricht man von einer multimedialen Darstellung der Information.
•Multimediale Darstellung soll dem Betrachter die Wissensaufnahme von Inhalten erleichtern, da der Benutzer die Informationen mit verschiedenen Sinnesorganen aufnimmt
alphanumerischeInformation
graphischeInformation
Audio-information
Video-information
3
Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam
Multimedia-Analyse-Technologien1.1 Multimedia und Kodierung
Medientypen•zeitunabhängige Medien
•Zeitkomponente während der Aufzeichnung ohne Bedeutung
•z.B. Text, Grafik
•„diskrete Medien“
•zeitabhängige Medien
•Information verändert sich mit der Zeit
•Gehalt einer Einzelinformation (zu einem diskreten Zeitpunkt) nicht signifikant
•Gesamtinformation erschließt sich erst aus dem zeitlichen Ablauf
•Zeitkomponente kritisch sowohl bei Aufzeichnung als auch bei Wiedergabe
•z.B. Audio, Video
4
Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam
Multimedia-Analyse-Technologien1.1 Multimedia und Kodierung
Multimediakodierung•Audio- /Videoinformation
•Audio-/Videoinformation liegt analog vor und muss vor einer entsprechenden Kodierung zunächst (zeitabhängig) digitalisiert werden.
•man unterscheidet verlustfreie und verlustbehaftete Kodierung von Audio-/Videoinformation
•verlustfreie Kodierung:
•Audio: AU, WAV, ...
•Video: DV
•verlustbehaftete Kodierung:
•Audio: MP3, MPEG-2 AAC, MPEG-4 AAC, ...
•Video: MPEG-1, MPEG-2, MPEG-4, H.264, X.264, DVCPro, ...
5
Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam
Multimedia-Analyse-Technologien1.2 Bild- und Videokodierung / Farbe und Farbmodelle
Farbe und Farbmodelle•Was ist Farbe?
•Farben sind die Grundbestandteile des weißen Lichts
•Prisma zerlegt weißes Licht in seine spektralen Bestandteile
•Lichtstrahlen besitzen keine Farbe sondern eine spektrale Energieverteilung
1648 Marcus Marci1672 Isaac Newton
λ=780 nm λ=380 nm
Infrarot UVsichtbares Licht
Elektromagnetisches Spektrum
PrismaIsaac Newton(1643-1727)
Marcus Marci(1595-1667)
6
Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam
Farbe und Farbmodelle•1931 wurde als erstes Modell
zur objektiven Farbbestimmungdie Farbnormtafel von derinternationalen Beleuchtungs-kommision festgelegt(Commission Internationale d´Eclairage, CIE)
•Farben werden aus Farbanteilen derGrundfarben (Rot, Grün, Blau)gemischt und in ein 2-dimensionalesKoordinatensystem projiziert
CIE Farbnormtafel, 1931
Multimedia-Analyse-Technologien1.2 Bild- und Videokodierung / Farbe und Farbmodelle
7
Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam
Farbe und Farbmodelle•RGB-Farbmodell
•additive Farbmischung
•Mischung selbstleuchtender Grundfarben
•Rot (700nm)
•Grün (546,1nm)
•Blau (435,8nm)
•Farbe wird als Tripel (r,g,b) aus den jeweiligen Farbanteilen angegeben
•z.B. bei 8 Bit pro Farbkanal:gelb = (255,255,0)
additive Farbmischung
Multimedia-Analyse-Technologien1.2 Bild- und Videokodierung / Farbe und Farbmodelle
8
Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam
Farbe und Farbmodelle•RGB-Farbmodell
•Bsp.:
R
G
B
additive Farbmischung
Multimedia-Analyse-Technologien1.2 Bild- und Videokodierung / Farbe und Farbmodelle
9
Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam
Farbe und Farbmodelle•CMY(K)-Farbmodell
•subtraktive Farbmischung
•Farbe entsteht durch Reflektion/Absorbtion an unterschiedlichen Oberflächen
•Grundfarben Cyan / Magenta / Yellow
•Druckprinzip: Farbpigmente der Grundfarben werden auf weiße Oberfläche aufgetragen
Lichtstrahl bestimmte Farbanteilewerden reflektiert,andere absorbiert
subtraktive Farbmischung
Multimedia-Analyse-Technologien1.2 Bild- und Videokodierung / Farbe und Farbmodelle
10
Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam
Farbe und Farbmodelle•CMY(K)-Farbmodell
•subtraktive Farbmischung
•Farbe entsteht durch Reflektion/Absorbtion an unterschiedlichen Oberflächen
•Grundfarben Cyan / Magenta / Yellow
•Druckprinzip: Farbpigmente der Grundfarben werden auf weiße Oberfläche aufgetragen
Lichtstrahl bestimmte Farbanteilewerden reflektiert,andere absorbiert
subtraktive Farbmischung
Multimedia-Analyse-Technologien1.2 Bild- und Videokodierung / Farbe und Farbmodelle
10
Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam
Farbe und Farbmodelle•CMY(K) Farbmodell
•Bsp.:
C
YM
subtraktive Farbmischung
Multimedia-Analyse-Technologien1.2 Bild- und Videokodierung / Farbe und Farbmodelle
11
Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam
Farbe und Farbmodelle•YUV-Farbmodell
•Zerlegung der Farben in
•Helligkeitsanteil (Luminanz) – Y-Komponente
•Farbanteil (Chrominanz) – U und V Komponente
•Historisch in Verbindung mit dem Farbfernsehens entstanden
•Rückwärtskompatibilität mit Schwarzweiß-Empfängern
•daher separater Helligkeitskanal
•Ausnutzung der unterschiedlichen Empfindlichkeit des menschlichen Auges für Helligkeits- und Farbunterschiede
Multimedia-Analyse-Technologien1.2 Bild- und Videokodierung / Farbe und Farbmodelle
12
Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam
Farbe und Farbmodelle•YUV-Farbmodell
rot grün blau
Multimedia-Analyse-Technologien1.2 Bild- und Videokodierung / Farbe und Farbmodelle
13
Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam
Farbe und Farbmodelle•YUV-Farbmodell
Y U V
Multimedia-Analyse-Technologien1.2 Bild- und Videokodierung / Farbe und Farbmodelle
14
Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam
15
Multimedia Analyse-Technologien
1. Motivation / Einführung (menschl. Wahrnehmung, Farbmodelle)
2. Digitalisierung von Bildern (Abtastung, Kompressionsverfahren, JPEG)
3. Videokodierung und -kompression (Subsamping, prediktive Kodierung, MPEG-Verfahren, Formate und Codecs)
4. Visuelle Analyse
1. Low-Level Processing (Filter, Kanten, morph. Operation, ...)
2. Bildbeschreibende Eigenschaften (Features: Norm, Histogramme, Entropie, LBP, Distanzmaße)
3. Analysemethoden (analytische Methoden, Lernverfahren)
4. High-Level Processing (Beispiele: Segmentierung, OCR, Faces, u. A. )
5. SEMEX Demo
6. naive Verfahren zur Key-Frame Extraction
15
Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam
Multimedia-Analyse-Technologien2. Digitalisierung / Visuelle Wahrnehmung
Visuelle Wahrnehmung des Menschen•Das menschliche Auge
16
Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam
Visuelle Wahrnehmung des Menschen•Licht- / Farbempfindlichkeit
•Netzhaut enthält zwei Typen von Licht-rezeptoren im menschlichen Auge:
•ZapfenFarb- und Helligkeitsempfindlich,verantwortlich für Farbsehen,im zentralen Retinabereich,ca. 6 Millionen, man unterscheidet drei Typen von Zapfen, die jeweils über unterschiedliches Sehpigment verfügen
•StäbchenHelligkeitsempfindlichauch bei geringer Beleuchtungim peripheren Retinabereichca. 120 Millionen
Multimedia-Analyse-Technologien2. Digitalisierung / Visuelle Wahrnehmung
17
Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam
Verlustbehaftete JPEG Kodierung•JPEG, Joint Photographic Experts Group
•verlustbehaftete Komprimierung, sehr gut geeignet für natürliche Bildquellen
•Komprimierung bis 1:20 bei kaum nennenswerten Verlust der Darstellungsqualität
•Ausnutzung der Physiologie der menschlichen Wahrnehmung
•Das menschliche Auge reagiert auf Änderungen der Helligkeit empfindlicher als auf Farbänderungen
•Natürliche Bildquellen besitzen
•häufig Farb- / Helligkeitsverläufe
•häufig keine starken Kontrastschwankungen
Multimedia-Analyse-Technologien2. Digitalisierung / JPEG Kodierung
18
Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam
Verlustbehaftete JPEG Kodierung•Natürliche Bildquellen besitzen
•häufig Farb- / Helligkeitsverläufe
•häufig keine starken Kontrastschwankungen
Helligkeit benachbarte Bildpunkte unterscheidet sich kaum
Idee: Das Herausfiltern von Bildanteilen mit starken Kontrastschwankungen fällt bei den meisten „natürlichen“ Bildern nicht auf
Multimedia-Analyse-Technologien2. Digitalisierung / JPEG Kodierung
19
Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam
Verlustbehaftete JPEG Kodierung•Natürliche Bildquellen besitzen
•häufig Farb- / Helligkeitsverläufe
•häufig keine starken Kontrastschwankungen
Helligkeit benachbarte Bildpunkte unterscheidet sich kaum
Idee: Das Herausfiltern von Bildanteilen mit starken Kontrastschwankungen fällt bei den meisten „natürlichen“ Bildern nicht auf
Multimedia-Analyse-Technologien2. Digitalisierung / JPEG Kodierung
19
Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam
JPEG Komprimierung - Ablauf•
Farbraum-wechsel
DiskreteCosinus-
Transformation
Chroma-Subsampling
Quantisierungmodifizierte
HuffmanKodierung
Originalbild komprimiertes Bild
schwächereFarbempfindlichkeitdes menschlichenAuges
Filterung von Bildanteilenmit starken Kontrastschwankungen
Multimedia-Analyse-Technologien2. Digitalisierung / JPEG Kodierung
20
Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam
JPEG Komprimierung - Ablauf
(1) Farbraumwechsel (r,g,b) →(Y,Cb,Cr)
Farbraum-wechsel
Originalbild
(r,g,b)
Y
Cb
Cr
Luminanz
Chrominanz
+0,299 +0,587 +0,114+0,1687 −0,3313 +0,5
+0,5 −0,4187 −0,081
⎛
⎝
⎜ ⎜ ⎜
⎞
⎠
⎟ ⎟ ⎟ ⋅
rgb
⎛
⎝
⎜ ⎜ ⎜
⎞
⎠
⎟ ⎟ ⎟
=
YCb
Cr
⎛
⎝
⎜ ⎜ ⎜
⎞
⎠
⎟ ⎟ ⎟
Multimedia-Analyse-Technologien2. Digitalisierung / JPEG Kodierung
21
JPEG Komprimierung - Ablauf(2) Chroma Subsampling
Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam
Y-Pixel
Multimedia-Analyse-Technologien2. Digitalisierung / JPEG Kodierung
22
JPEG Komprimierung - Ablauf(2) Chroma Subsampling
Cr-Pixel
Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam
Y-Pixel
Multimedia-Analyse-Technologien2. Digitalisierung / JPEG Kodierung
22
Cb-Pixel
JPEG Komprimierung - Ablauf(2) Chroma Subsampling
Cr-Pixel
Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam
Y-Pixel
Multimedia-Analyse-Technologien2. Digitalisierung / JPEG Kodierung
22
Cb-Pixel
JPEG Komprimierung - Ablauf(2) Chroma Subsampling
Cr-Pixel
Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam
Y-Pixel
Statt 4·(r,g,b) 4·Y+1·(Cb+Cr)
4·(8+8+8)=96 Bit 4·8+(8+8)=48 Bit
Multimedia-Analyse-Technologien2. Digitalisierung / JPEG Kodierung
22
JPEG Komprimierung - Ablauf(2) Chroma Subsampling
Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam
4:4:4 – kein Subsampling
Luminanzpixel
Chrominanzpixel
4:2:2 – horizontales Subsampling um Faktor 2
Multimedia-Analyse-Technologien2. Digitalisierung / JPEG Kodierung
23
JPEG Komprimierung - Ablauf(2) Chroma Subsampling
Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam
Luminanzpixel
Chrominanzpixel
4:1:1 – horizontales Subsampling um Faktor 4
4:2:0 – horizontales und vertikales Subsampling um Faktor 2
Multimedia-Analyse-Technologien2. Digitalisierung / JPEG Kodierung
24
JPEG Komprimierung - Ablauf(2) Chroma Subsampling
Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam
4:2:0 Subsampling285 KB
Original PNG968 KB
Multimedia-Analyse-Technologien2. Digitalisierung / JPEG Kodierung
25
JPEG Komprimierung - Ablauf(3) Diskrete Cosinus-Transformation (DCT)
•versetzt einzelne Helligkeitswerte von Ortsraum in Frequenzraum
•Jede Komponente (Y,Cb,Cr) wird separat transformiert
•Bild wird dazu in Blöcke 8x8-Pixel zerlegt
Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam
(0,0)
(7,7)8x8 Block
DCT
F(0,0)
F(7,7)
transformierter 8x8 Block
Multimedia-Analyse-Technologien2. Digitalisierung / JPEG Kodierung
26
JPEG Komprimierung - Ablauf(3) Diskrete Cosinus-Transformation (DCT)
•Das Prinzip der Fouriertransformation:Jede periodische Funktion lässt sich als Summevon Sinus- und Cosinus-Funktionen darstellen.
Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam
Jean-Babtiste Joseph Baron de Fourier
(1768-1830)
Multimedia-Analyse-Technologien2. Digitalisierung / JPEG Kodierung
27
JPEG Komprimierung - Ablauf(3) Diskrete Cosinus-Transformation (DCT)
•Das Prinzip der Fouriertransformation:Jede periodische Funktion lässt sich als Summevon Sinus- und Cosinus-Funktionen darstellen.
Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam
Jean-Babtiste Joseph Baron de Fourier
(1768-1830)
A
x
Ortsraum
Multimedia-Analyse-Technologien2. Digitalisierung / JPEG Kodierung
27
JPEG Komprimierung - Ablauf(3) Diskrete Cosinus-Transformation (DCT)
•Das Prinzip der Fouriertransformation:Jede periodische Funktion lässt sich als Summevon Sinus- und Cosinus-Funktionen darstellen.
Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam
Jean-Babtiste Joseph Baron de Fourier
(1768-1830)
A
x
Ortsraum
Multimedia-Analyse-Technologien2. Digitalisierung / JPEG Kodierung
27
JPEG Komprimierung - Ablauf(3) Diskrete Cosinus-Transformation (DCT)
•Das Prinzip der Fouriertransformation:Jede periodische Funktion lässt sich als Summevon Sinus- und Cosinus-Funktionen darstellen.
Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam
Jean-Babtiste Joseph Baron de Fourier
(1768-1830)
A
f
Frequenz-Spektrum
A
x
Ortsraum
Multimedia-Analyse-Technologien2. Digitalisierung / JPEG Kodierung
27
Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam
Farbe und Farbmodelle(3) Diskrete Cosinus-Transformation (DCT)
Frequenzraum
uv
F(u,v)
• Jeder Punkt bezeichnet Anteil einer bestimmten Frequenz
• F(0,0) - niedrigste Frequenz• F(7,7) - höchste Frequenz
Niedrige Frequenz = langsame ÄnderungHohe Frequenz = rasche Änderung
„natürliche“ Bilder besitzen viele kontinuierliche Farb-/Helligkeitsübergänged.h. Hauptanteil der Bildinformation liegt in den niedrigen Frequenzen
Multimedia-Analyse-Technologien2. Digitalisierung / JPEG Kodierung
28
Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam
Farbe und Farbmodelle(3) Diskrete Cosinus-Transformation (DCT)
45 5045 45 50
50 5045
50
53
56
56
56
5653 53
535350
58 48
43 48
48
43 48 61 63
68 504858
45 48 56
56
50 45
48
6168
61
61
61
61
63
53635656
56 56
50
50
53
53 53
45 5050 61 61
58
48
425 -6-25 -5
-1 -710
9
-4
0
3-15
-3
-17 0
-5
-3 -3 4
-3
0 0 0 -1
4
1-43
-8 3
3
1
4
2
-3 2 -1
5
-6
DCT
Orts
raum
Freq
uenz
raum
-15
3
4
-6
-2-10
13
10
0 -22
4
6 66
1
0
3
2
-4
-3
-3
0 4
Multimedia-Analyse-Technologien2. Digitalisierung / JPEG Kodierung
29
Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam
Farbe und Farbmodelle(3) Diskrete Cosinus-Transformation (DCT) - Quantisierung
Hohe Frequenzenwerden entfernt
Niedrige Frequenzenbleiben erhalten
Qua
ntis
ieru
ngsm
atrix
– Q
(u,v
)1 11 1 8
1 41
2
16
4
4
8
161 4
888
1 16
1 1
2
1 1 4 8
16 16168
4 8 8
8
8 16
4
3216
16
64
32
32
32
3216168
8 8
8
4
8
8 16
16 328 8 16
16
8
Multimedia-Analyse-Technologien2. Digitalisierung / JPEG Kodierung
30
Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam
Farbe und Farbmodelle(3) Diskrete Cosinus-Transformation (DCT) - Zig-Zag-Encodierung
DC
Mittelwert
Multimedia-Analyse-Technologien2. Digitalisierung / JPEG Kodierung
31
Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam
Farbe und Farbmodelle(3) Diskrete Cosinus-Transformation (DCT) - Zig-Zag-Encodierung
DC
Mittelwert
Multimedia-Analyse-Technologien2. Digitalisierung / JPEG Kodierung
31
Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam
Farbe und Farbmodelle(3) Diskrete Cosinus-Transformation (DCT) - mod. Huffman Kodierung
• Kodierung variabler Länge mit fester Kodierungsvorschrift• Zusammenfassung von Null-Ketten mit Lauflängenkodierung (RLE-Kodierung)
Bits Wertebereich1 -1, +1
2 -3,-2, +2,+3
3 -7…-4, +4…7
4 -15…-8, 8…15
5 -31…-16, 16…31
6 -63…-32, 32…63
7 -127…-64, 64…127
8 -255..-128, 128…255
9 -511…-256, 256…511
Multimedia-Analyse-Technologien2. Digitalisierung / JPEG Kodierung
32
Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam
JPEG Komprimierung - Ablauf•
Farbraum-wechsel
DiskreteCosinus-
Transformation
Chroma-Subsampling
Quantisierungmodifizierte
HuffmanKodierung
Originalbild komprimiertes Bild
schwächereFarbempfindlichkeitdes menschlichenAuges
Filterung von Bildanteilenmit starken Kontrastschwankungen
Multimedia-Analyse-Technologien2. Digitalisierung / JPEG Kodierung
33
Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam
Farbe und Farbmodelle(3) Diskrete Cosinus-Transformation (DCT) - mod. Huffman Kodierung
Quality : 90%Size: 21,868 bytes
Quality : 50%Size: 9,096 bytes
Quality : 10%Size: 3,519 bytes
Quality : 100%Size: 54,124 bytes
Multimedia-Analyse-Technologien2. Digitalisierung / JPEG Kodierung
34
Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam
35
Multimedia Analyse-Technologien
1. Motivation / Einführung (menschl. Wahrnehmung, Farbmodelle)
2. Digitalisierung von Bildern (Abtastung, Kompressionsverfahren, JPEG)
3. Videokodierung und -kompression (Subsamping, prediktive Kodierung, MPEG-Verfahren, Formate und Codecs)
4. Visuelle Analyse
1. Low-Level Processing (Filter, Kanten, morph. Operation, ...)
2. Bildbeschreibende Eigenschaften (Features: Norm, Histogramme, Entropie, LBP, Distanzmaße)
3. Analysemethoden (analytische Methoden, Lernverfahren)
4. High-Level Processing (Beispiele: Segmentierung, OCR, Faces, u. A. )
5. SEMEX Demo
6. naive Verfahren zur Key-Frame Extraction
35
Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam
Videokodierung und Bewegungswahrnehmung•Grundlagen
•Video (Film):kontinuierliche Abfolge von aufeinander folgenden Einzelbildern, die aufgrund der Netzhautträgheit des Menschen als zusammen-hängende, bewegte Sequenz erscheint.
•Netzhautträgheit:das von der Netzhaut (Retina) wahrgenommene Bild bleibt für 1/16s auf dieser bestehen, ehe es verlischt
•Kodierung einer Video(Film)sequenz erfordert sehr viel Speicherplatz
•Bild und Ton müssen synchron ablaufen
•erfordert hohe Bandbreite
Multimedia-Analyse-Technologien3. Videokodierung und Kompression
36
Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam
Videokodierung und Bewegungswahrnehmung•Analoge Videotechnik
•Farbfernsehen – PAL
•PAL (Phase Alternation Line, Europa) sendet mit Bildwiederholfrequenz von 25 Hz und einer Bildauflösung von 720x576 Pixeln, wobei 2 gegenseitig verschränkte Halbbilder mit im Takt von jeweils 1/50s gesendet werden
gerade Zeilen ungerade Zeilen
+
1/50s 1/50s
=
1/25s
PAL interlaced
Multimedia-Analyse-Technologien3. Videokodierung und Kompression
37
Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam
Videokodierung und Bewegungswahrnehmung•PAL (SD576i)- notwendige Bandbreite
•Bildauflösung: 720 x 576 Pixel
•Bildwiederholfrequenz: 25 Hz
•Farbtiefe: 8 Bit
•Subsampling: 4:2:2
•Benötigte Bandbreite: 720 x 576 x 25 x 8 + 2 x (360 x 576 x 25 x 8) = 166 Mbps
Luminanz Chrominanz
Multimedia-Analyse-Technologien3. Videokodierung und Kompression
38
Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam
Videokodierung und Bewegungswahrnehmung•HDTV (HD1080p) - notwendige Bandbreite
•Bildauflösung: z.B. 1920 x 1080 Pixel
•Bildwiederholfrequenz: bis 60 Hz
•Farbtiefe: 8 Bit
•Subsampling: 4:2:2
•Benötigte Bandbreite (Beispiel): 1920x1080x60x8 + 2x(960x1080x60x8) = 1,99 Gbps
Multimedia-Analyse-Technologien3. Videokodierung und Kompression
39
Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam
Prediktive Kodierung•Ausnutzung von inhärenten Redundanzen in Videosequenzen
•z.B. Hintergrund statisch, nur Objekt im Vordergrund bewegt
•Objekte und Objektbewegungen müssen erkannt werden
•Bewegung kann als Grauwertveränderungder Position von Bildpunkten definiert werden
•Bei fester Kameraeinstellung ändert sich derBildinhalt durch Bewegung der Objekte in der Szene
•Verfahren zur Bewegungsprädiktion:
• Vorhersage ohne semantischen Kontext
• Modellbasierte Verfahren, z.B. bei Videotelefonie, Nachrichtensprecher, etc.
• Objekt-/Regionenbasierte Verfahren, d.h. Bildsegmentierung und Extraktion von Objekten
Multimedia-Analyse-Technologien3. Videokodierung und Kompression
40
Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam
Prediktive Kodierung•Block-Matching
Referenzbild RIn-k
• Annahme:
• benachbarte Bildpunkte führen die gleiche Bewegung aus.
• Vorgehen
• Unterteile das vorherzusagende Bild In in gleich große Blöcke (Segmente)
• Für jedes Segment bestimme im Referenzbild RIn-k einen Block mit möglichst gleichem Inhalt
Originalbild In
Multimedia-Analyse-Technologien3. Videokodierung und Kompression
41
Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam
Prediktive Kodierung•Block-Matching
Referenzbild RIn-k
• Vorgehen (Fortsetzung):
• Ist ein passendes Segment gefunden, bestimme den Verschiebevektor v=(vx,vy)
• Vollständige Prädiktion ist nur möglich, wenn für jedes Segment in In ein passender Block im Referenzbild gefunden wird.
• Das Prädiktionsbild PIn wird wie eine Collage aus den gefundenen Segmenten des Referenzbildes zusammengesetzt und sieht bei erfolgreicher Prädiktion dem Originalbild In sehr ähnlich.
Originalbild In
v
Multimedia-Analyse-Technologien3. Videokodierung und Kompression
42
Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam
Video Codecs und Komprimierverfahren
Codec Komprimierungs-verfahrenDatencontainer implementiertverpackt kodierte
Daten in
WMV9
DivXRealVideo
XviD
h.261
h.263
MPEG 1
MPEG 2
MPEG 4
h.264
avi
RealMedia
mpg
ogm
mkv
vobasf QuickTime Nero
HDX4mp4
Multimedia-Analyse-Technologien3. Videokodierung und Kompression
43
Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam
Videokomprimierung nach MPEG•MPEG - Moving Pictures Experts Group
•eigentlich ISO/IEC JTC1/SC29/WG11
•seit 1988, ca. 360 Mitglieder aus Industrie/Forschung
•MPEG-1 Standard 1992
•VCD, MP3-Audiokomprimierung
•Datenrate 1,5 Mbps erfordert Komprimierung von >100:1
•MPEG-2 Standard 1995
•Digitalfernsehen (DVB), DVD
•MPEG-3 Standard in MPEG-2 integriert (HDTV)
•MPEG-4 Standard 1999
•Interaktives Audio und Video über drahtlose Netze und Internet
•HDTV, DRM, komplexe Objektverwaltung
Multimedia-Analyse-Technologien3. Videokodierung und Kompression
44
Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam
MPEG-1 Videokodierung - Prinzipieller Ablauf•
Farbkonversionnach YCrCb
DCTTransformation Quantisierung Lauflängen
KodierungBlock-
vergleich
Videoeinzelbilder
Referenz-bild
HuffmanKodierung
RGB YUV
YUV Fehler-/Differenzwerte DCT-Werte quantisierte
DCT-WerteNullen
unterdrückt
Codevariabler Länge
MPEG Bitstrom
InverseQuantisierungInverse DCT
quantisierteDCT-Werte
DCT-WerteYUV
Multimedia-Analyse-Technologien3. Videokodierung und Kompression
45
Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam
MPEG-1 Videokodierung - Datenstrom Struktur•
Videosequenz
Group of Pictures
Einzelbild
Slice
Makroblock
16 x 16 Pixel
Block
8 x 8 Pixel
Multimedia-Analyse-Technologien3. Videokodierung und Kompression
46
Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam
MPEG-1 Videokodierung •Farbraumkonvertierung → YCrCb (4:2:2)
•Aufteilung der Einzelbilder in Zeilenabschnitte (Slices) und Makroblöcke
•16 x 16 Pixel Luminanz (Makroblock)
• 8 x 8 Pixel Chrominanz (Block)
•Bewegungsvorhersagealgorithmus
•Vergleiche Luminanzmakroblöcke aufeinander folgender Einzelbilder
•Ortsveränderungen von Luminanzmakroblöcken werden über Vektoren kodiert
•Qualität abhängig von Suchraumgröße
Multimedia-Analyse-Technologien3. Videokodierung und Kompression
47
Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam
MPEG-1 Videokodierung •Farbraumkonvertierung → YCrCb (4:2:2)
•Bewegungsvorhersagealgorithmus
•DCT – Transformation
•Unterscheide Einzelbildvarianten:
•Intra-Frame (I-Frame)vollständiges Einzelbild, keine Bewegungsvorhersage, stets erstes Bild einer Sequenz (Standbild)
•Predictive Frame (P-Frame)nutzt zusätzlich Bewegungsvorhersage, bezieht sich auf vorhergehendes I-Frame
•Bidirectional Frame (B-Frame)Bewegungsvorhersage, bezieht sich auf vorhergehendes/nachfolgendes P-/I-Frame
Multimedia-Analyse-Technologien3. Videokodierung und Kompression
48
Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam
MPEG-1 Videokodierung •Frametypen
•I-Frame muss nach spätestens 12 Frames wieder folgen
•Reihenfolge und jeweilige Wiederholungsanzahl der einzelnen Framessonst nicht vorgeschrieben
Zeit
I B B B P B B B P B B B P B B B I
Multimedia-Analyse-Technologien3. Videokodierung und Kompression
49
Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam
MPEG-1 Videokodierung •P-Frame Kodierung
Referenz-Frame Ziel-Frame
Multimedia-Analyse-Technologien3. Videokodierung und Kompression
50
Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam
MPEG-1 Videokodierung •P-Frame Kodierung
Referenz-Frame Ziel-Frame
Multimedia-Analyse-Technologien3. Videokodierung und Kompression
50
Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam
MPEG-1 Videokodierung •P-Frame Kodierung
Referenz-Frame Ziel-Frame
1. Suche Best Match
Multimedia-Analyse-Technologien3. Videokodierung und Kompression
50
Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam
MPEG-1 Videokodierung •P-Frame Kodierung
Referenz-Frame Ziel-Frame
2. Verschiebungsvektor1. Suche Best Match
Multimedia-Analyse-Technologien3. Videokodierung und Kompression
50
Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam
MPEG-1 Videokodierung •P-Frame Kodierung
Referenz-Frame Ziel-Frame
2. Verschiebungsvektor1. Suche Best Match
3. Differenzbildung
-
Multimedia-Analyse-Technologien3. Videokodierung und Kompression
50
Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam
MPEG-1 Videokodierung •B-Frame Kodierung
Past Referenz Ziel-Frame Future Referenz
- ( + )/2
Multimedia-Analyse-Technologien3. Videokodierung und Kompression
51
Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam
MPEG-1 Videokodierung •B-Frame Kodierung
Past Referenz Ziel-Frame
1. Suche Best Match
Future Referenz
- ( + )/2
Multimedia-Analyse-Technologien3. Videokodierung und Kompression
51
Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam
MPEG-1 Videokodierung •B-Frame Kodierung
Past Referenz Ziel-Frame
1. Suche Best Match2. Verschiebungsvektoren
3. Differenzbildung
Future Referenz
- ( + )/2
Multimedia-Analyse-Technologien3. Videokodierung und Kompression
51
Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam
MPEG-1 Videokodierung •Typische Kompressionsfaktoren (SD576)
Frame Size Rate
I 92 kB 7:1
P 32 kB 20:1
B 13 kB 50:1
average 26 kB 25:1
Multimedia-Analyse-Technologien3. Videokodierung und Kompression
52
Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam
MPEG-1 Videokodierung •MPEG Datenstrom
Sequence…SequenceSequence
GOP…GOPQTsStrParVidParSqc SC
Pict…PictGOPParTCodeGOP SC
Slice…SliceSliceEncodeBufferTypeP SC
MB…MBQscaleVPosS SC
… b5b0CBPQScaleMVTypeAddrln
Sequence Layer
Group of PicturesLayer
Picture Layer
Slice Layer
Macroblock Layer
Block Layer
Multimedia-Analyse-Technologien3. Videokodierung und Kompression
53
Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam
54
Multimedia Analyse-Technologien
1. Motivation / Einführung (menschl. Wahrnehmung, Farbmodelle)
2. Digitalisierung von Bildern (Abtastung, Kompressionsverfahren, JPEG)
3. Videokodierung und -kompression (Subsamping, prediktive Kodierung, MPEG-Verfahren, Formate und Codecs)
4. Visuelle Analyse
1. Low-Level Processing (Filter, Kanten, morph. Operation, ...)
2. Bildbeschreibende Eigenschaften (Features: Norm, Histogramme, Entropie, LBP, Distanzmaße)
3. Analysemethoden (analytische Methoden, Lernverfahren)
4. High-Level Processing (Beispiele: Segmentierung, OCR, Faces, u. A. )
5. SEMEX Demo
6. naive Verfahren zur Key-Frame Extraction
54
Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam
55
Multimedia Analyse-Technologien
1. Motivation / Einführung (menschl. Wahrnehmung, Farbmodelle)
2. Digitalisierung von Bildern (Abtastung, Kompressionsverfahren, JPEG)
3. Videokodierung und -kompression (Subsamping, prediktive Kodierung, MPEG-Verfahren, Formate und Codecs)
4. Visuelle Analyse
1. Low-Level Processing (Filter, Kanten, morph. Operation, ...)
2. Bildbeschreibende Eigenschaften (Features: Norm, Histogramme, Entropie, LBP, Distanzmaße)
3. Analysemethoden (analytische Methoden, Lernverfahren)
4. High-Level Processing (Beispiele: Segmentierung, OCR, Faces, u. A. )
5. SEMEX Demo
6. naive Verfahren zur Key-Frame Extraction
55
Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam
Verfahren zur Bildbearbeitung und Bildanalyse (Low-Level)•Punktweise-Bildbearbeitung (Binärbilder, Grauwerttransformation)
•Lineare lokale Filter (LSI-Filter, Faltung, Laplace & Co.)
•Nichtlineare lokale Filter (Erosion, Dilatation, Rangordnungsfilter)
•Konturen (Kantenrichtung)
•Bildsegmentierung (Skeleton)
•Optical Flow
•Bildtransformationen (diskrete Fourier-Transformation, Cosinus-Transformation)
•...
Multimedia Analyse-Technologien4. Visuelle Analyse: Low-Level Processing
56
G{0, .., 255}→ B{0, 1}
g(x, y) =
�1, if f(x, y) >= T
0, OtherwiseT = threshold
Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam
Binärbild: Das Bild bestehen aus zwei Farben (z.B. Schwarz und Weiß)
Binarisierung:
T = 128
T = 80
cv.Threshold(...)
Multimedia Analyse-Technologien4. Visuelle Analyse: Low-Level Processing
Binarisierung
57
Ir,g,b(x, y) → Ig(x, y) = 0.299 ∗ Ir + 0.587 ∗ Ig + 0.114 ∗ Ib
Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam
cv.cvtColor(img, img, CV_RGB2gray);
Multimedia Analyse-Technologien4. Visuelle Analyse: Low-Level Processing
Grauwerttransformation
Überführen eines RGB-Bildes in einGrauwertbild (mit z.B. 256 Grauwerten).
58
Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam
cv.Filter2D(src, dst, kernel)
Multimedia Analyse-Technologien4. Visuelle Analyse: Low-Level Processing
Faltung (Convolution)
Pixel für Pixel wird aus der Nachbarschaft (definiert durch den Faltungs-Kern) der neue Wert für den Pixel im resultierenden Bild berechnet.
Image: https://developer.apple.com/
59
Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam
BildFaltungsbereich
Ableitung
cv.Sobel(src, dst, xorder, yorder, apertureSize = 3)
Multimedia Analyse-Technologien4. Visuelle Analyse: Low-Level Processing
Faltung (Convolution): Sobel Operator
60
Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam
45 44 4839 255 50
42 51 54
3942444548505154255
Ähnlich wie Faltung, benutzt jedoch eine Sortieroperation.
Wahl der Position bestimmt die Art des Rangordnungsfilters (z.B. Median)
Faltungsbereich
Median
Median
cv.MedianBlur(src, dst, size)
Rangordnungsfilter: Median
Multimedia Analyse-Technologien4. Visuelle Analyse: Low-Level Processing
Median Filter:
•3x3 Nachbarschaft
•Kantenerhaltend
•Robustheit gegen Ausreißer
61
Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam
Dilatation: Faltung des Bildes durch Maximum Rangordnungsfilter
Erosion: Faltung des Bildes durch Minimum Rangordnungsfilter
Opening: Erosion und Dilatation(kleine helle Strukturen Filtern)
Closing: Dilatation und Erosion (kleine dunkle Strukturen filtern)
BEB DB
DB CB=EDB EEDB OCB=DEEDB
cv.Dilate(image,image,element,2)cv.Erode(image,image,element,2)
Multimedia Analyse-Technologien4. Visuelle Analyse: Low-Level Processing
Morphologische Operationen: Dilatation, Erosion
62
Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam
Die Kantenrichtung ermittelt sich aus der Richtung (bzw. dem Winkel) des stärksten Anstiegs des Gradienten
Gradient Berechnung mittels Sobel Filter :
Richtung des Gradienten:
vgl. OpenCV motion analysis and object tracking
Multimedia Analyse-Technologien4. Visuelle Analyse: Low-Level Processing
Kantenrichtung
63
Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam
Berechnung einer innere Skelettlinie von einen flächenhaften Bildobjekt
Berechnung: Distanzfunktion D(x,y) die den Abstand eines inneren Punktes (x,y) zu dem naheliegendsten Randpunkt angibt.
Mittelachse Definition:Punkte p, für die D(p) ein lokales Maximum in einer bestimmten Richtung ist.
Multimedia Analyse-Technologien4. Visuelle Analyse: Low-Level Processing
Skelletierung (Sceleton)
64
Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam
65
Multimedia Analyse-Technologien
1. Motivation / Einführung (menschl. Wahrnehmung, Farbmodelle)
2. Digitalisierung von Bildern (Abtastung, Kompressionsverfahren, JPEG)
3. Videokodierung und -kompression (Subsamping, prediktive Kodierung, MPEG-Verfahren, Formate und Codecs)
4. Visuelle Analyse
1. Low-Level Processing (Filter, Kanten, morph. Operation, ...)
2. Bildbeschreibende Eigenschaften (Features: Norm, Histogramme, Entropie, LBP, Distanzmaße)
3. Analysemethoden (analytische Methoden, Lernverfahren)
4. High-Level Processing (Beispiele: Segmentierung, OCR, Faces, u. A. )
5. SEMEX Demo
6. naive Verfahren zur Key-Frame Extraction
65
Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam
Multimedia Analyse-Technologien4. Visuelle Analyse: Features
Analyse Features und Invarianten•Histogramme
•Entropie
•Local Binary Pattern
•Distanzmaße
•uvm.
66
Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam
h = Höhe, b = Breite des Bildes
Definitionsmenge (Grauwert) :
Wertebereich entspricht dann der Größe des Bildes:
Der Wert des Histogramms H an der Stelle i gibt an,wie viele Pixel des Bildes die Intensität i haben
•(graphische) Darstellung der Häufigkeitsverteilung metrisch skalierter Merkmale•Grauwert-Histogramm beschreibt die Grauwert Verteilung in einem Bild
Multimedia Analyse-Technologien4. Visuelle Analyse: Features
Histogramme
67
Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam
•RGB-Histogramm
•Kantenrichtungs-Histogramm / Histogram of Oriented Gradients (HOG)
•Optical Flow Histogramm•
Histogramme sind invariant gegenüber:•Rotation•Translation (Verschiebung)
Histogramme
Multimedia Analyse-Technologien4. Visuelle Analyse: Features
68
Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam
• Maß für den Informationsgehalt einer Nachricht
Definition Entropie:
pi = normalisierte Häufigkeit des Grauwertes i
Merkmale :
• minimal bei homogenen Bildern
• maximal bei gleich verteilten Grauwert Häufigkeiten
Multimedia Analyse-Technologien4. Visuelle Analyse: Features
Entropie
69
Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam
23 57 8912 50 2455 20 11
0 1 10 01 0 0
1 2 48 1632 64 128
LBP=2+4+32=38
Table 1: Local Binary Pattern (LBP) feature
LBP (x, y) =7�
n=0
Se(in − ic) ∗ 2n (1)
Se(x) =
�1, x >= 00, x < 0
(2)
•Texture Filter invariant zu monotonen Grau-Level-Änderungen
•Parameter unabhängig
Bildquelle Vergleichsoperation (2) Nominierung 2^n Ergebnis LBP Operator (1)
Punktoperation mit 3x3 Nachbarschaft:
Vergleichsoperation des aktuellen Punktes:
Multimedia Analyse-Technologien4. Visuelle Analyse: Features
Local Binary Pattern (LBP)
70
Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam
Histogramm-Differenz:
Pixel-Differenz (Norm):
Earth-Movers-Distance (EMD):
Multimedia Analyse-Technologien4. Visuelle Analyse: Features
Distanzmaße• werden zum Beispiel für Ähnlichkeitsbetrachtungen benötigt
71
Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam
72
Multimedia Analyse-Technologien
1. Motivation / Einführung (menschl. Wahrnehmung, Farbmodelle)
2. Digitalisierung von Bildern (Abtastung, Kompressionsverfahren, JPEG)
3. Videokodierung und -kompression (Subsamping, prediktive Kodierung, MPEG-Verfahren, Formate und Codecs)
4. Visuelle Analyse
1. Low-Level Processing (Filter, Kanten, morph. Operation, ...)
2. Bildbeschreibende Eigenschaften (Features: Norm, Histogramme, Entropie, LBP, Distanzmaße)
3. Analysemethoden (analytische Methoden, Lernverfahren)
4. High-Level Processing (Beispiele: Segmentierung, OCR, Faces, u. A. )
5. SEMEX Demo
6. naive Verfahren zur Key-Frame Extraction
72
Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam
•Anwendung zum Beispiel bei der Binarisierung von Bildern
•Globale Schwellwertverfahren
• Das gesamte Signal (z.B. Bild) wird berücksichtigt.
• Genau ein Schwellwert wird (manuell) festgelegt.
•Lokale Schwellwertverfahren
• Das Signal wird in Regionen unterteilt.
• Für jede Region wird ein Schwellwert festgelegt.
•Dynamische Schwellwertverfahren
• Weiterentwicklung des lokalen Verfahrens.
• Die Nachbarschaft der Region wird berücksichtigt.
• Der Schwellwert wird aufgrund der Nachbarschaft automatisch festgelegt.
Multimedia Analyse-Technologien4. Visuelle Analyse: Analysemethoden
Schwellwertverfahren
73
Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam
•Ziel: optimale Parameter für ein komplexes System finden
•optimal heisst: eine bestimmte Zielfunktion wird maximiert oder minimiert
• lokale Optimierung: finde nächstgelegene Maximum/Minimum
•globale Optimierung: finde das absolute Maximum/Minimum
•im Allgemeinen werden komplexe mathematische Verfahren gewählt, die die Topologie der Zielfunktion berücksichtigen
•die einfachste Methode sich der optimalen Lösung zu nähern, ist das “Abrastern”
•also das systematische Ausprobieren aller möglichen Parameterkombinationen
Multimedia Analyse-Technologien4. Visuelle Analyse: Analysemethoden
Parameter-Optimierung
74
Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam
•Lernen: induktives Schließen durch Beobachten von Beispielen, die eine unvollständige Information repräsentieren
•Unüberwacht (unsupervised): Suche nach Regularitäten/Mustern in beobachteten Beispielen, Bsp.: Suche nach Ausreißern (mit Hilfe von Clustering)
•Überwacht (supervised): Jedes beobachtete Beispiel trägt ein Label, Ziel des Lernens ist es, dieses Label auf unbeobachtete Fälle zu übertragen (Generalisieren statt Erinnern), Bsp: Klassifikation
Multimedia Analyse-Technologien4. Visuelle Analyse: Analysemethoden
Maschinelle Lernverfahren
75
Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam
• K-Nearest-Neighbor
• Stimmenmehrheit der k ähnlichsten Beispiele
• Linear Discriminant Analysis (LDA)
• Minimiert Intra-Klassen Varianz und maximiert Distanz (”Unähnlichkeit”) zwischen zwei Klassen
Multimedia Analyse-Technologien4. Visuelle Analyse: Analysemethoden
Maschinelle Lernverfahren
76
Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam
•Neuronale Netze
• Können jede beliebige Zielfunktion approximieren
• Neuron: gewichtete Summe aus Eingaben, nicht-lineare Funktion der Summe als Ausgabe
• Decision Trees
Multimedia Analyse-Technologien4. Visuelle Analyse: Analysemethoden
Maschinelle Lernverfahren
77
Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam
•Support Vector Machines (SVM)
• Large Margin Optimizer: Generalisierbarkeit
• Nicht-lineare Probleme können gelöst werden
Multimedia Analyse-Technologien4. Visuelle Analyse: Analysemethoden
Maschinelle Lernverfahren
78
Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam
79
Multimedia Analyse-Technologien
1. Motivation / Einführung (menschl. Wahrnehmung, Farbmodelle)
2. Digitalisierung von Bildern (Abtastung, Kompressionsverfahren, JPEG)
3. Videokodierung und -kompression (Subsamping, prediktive Kodierung, MPEG-Verfahren, Formate und Codecs)
4. Visuelle Analyse
1. Low-Level Processing (Filter, Kanten, morph. Operation, ...)
2. Bildbeschreibende Eigenschaften (Features: Norm, Histogramme, Entropie, LBP, Distanzmaße)
3. Analysemethoden (analytische Methoden, Lernverfahren)
4. High-Level Processing (Beispiele: Segmentierung, OCR, Faces, u. A. )
5. SEMEX Demo
6. naive Verfahren zur Key-Frame Extraction
79
Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam
Structural Video Analysis
80
Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam
Structural Video Analysis
video
• Decomposition of time-based media into meaningful media fragments of coherent content that can be used as basic element for indexing and classification
scenes
shots
subshots
frameskey frames
81
Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam
•Shot Boundary Detection
• Automated Identification of• Hard Cuts• Defects, as e.g.,
• Drop Outs, White Outs, etc.• Soft Cuts, as e.g.,
• Fade-In/Out, • Dissolve, Wipe, Cross-Fade, etc.
• Automated Structural Analysis based on• Analytical Shot Boundary Detection• Machine Learning Based Shot Detection
time
Structural Video Analysis
82
Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam
• Shot Boundary Detection• Automated Identification of
Hard Cuts based on
• Luminance/ChrominanceHistogram Differences & Derivatives
• Edge Distribution/Density
576 577 578575574573
Structural Video Analysis
83
Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam
Hardcut: if and is true for all Subregions a
i i+1 i+2i-1i-2i-3
1 2
3 4
tha(i) = α ·
i+W−1�
k=i−W
Da(k, k − 1)
−Da(i, i− 1)
+ β
Da(i, i− 1) > thα(i)
Da(i+ 1, i) < thα(i)
1
Window Size=4 (W=2)
Decompose Frame into a=4 Subregions
Da(i,i-1) ... Histogram Difference (L2-norm) between Frames i and i-1 of Subregion a
tha(i) ... adaptive Threshold for Frame i of Subregion a
Adaptive Threshold
tha(i) = α ·
i+W−1�
k=i−W
Da(k, k − 1)
−Da(i, i− 1)
+ β
Da(i, i− 1) > thα(i)
Da(i+ 1, i) < thα(i)
1
tha(i) = α ·
i+W−1�
k=i−W
Da(k, k − 1)
−Da(i, i− 1)
+ β
Da(i, i− 1) > thα(i)
Da(i+ 1, i) < thα(i)
1
Structural Video Analysis
84
Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam
• Shot Boundary Detection / Defect Analysis• Automated Identification of Defects
Drop Out
Histogram/Chrominance Difference Analysis
Flashlight / White Out
Histogram/Chrominance Difference Analysis
Structural Video Analysis
i i+10i+9i+8 i+11 i+12 i+13i+1
85
Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam
• Shot Boundary Detection
• Automated Identification of Soft Cuts, , as e.g. Fade Out / Fade In
• Features applied for machine learning:
• luminance histogram (Fade In / Fade Out)• luminance average Yµ
and luminance variance Yσ2 follow distinct patterns
• image decomposition
• component-based analysis to distinguish regional and global changes in image content
• entropy
• motion vectors
1 2 3
4 5 6
7 8 9
Structural Video Analysis
86
Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam
• Shot Boundary Detection
• Automated Identification of Soft Cuts, , as e.g. Fade Out / Fade In
• Features deployed for machine learning:
• luminance/chrominance histogram
• entropy
• motion vectors• image decomposition
• compute average motion vectors for all areas
• identify camera movements(zoom, pan, etc.) andmoving objects
1 2
3 4
Structural Video Analysis
87
Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam
Intelligent Character Recognition
88
Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam
• Preprocessing
• Character Identification
• Text Preprocessing
• Text Filtering
• Adaption of script geometry (Deskew)
• Image Quality Enhancement
• Optical Character Recognition (OCR)
• Standard OCR software (OCRopus)
• Postprocessing
• Lexical analysis
• Statistical / context based filtering
Rostock
Text Filtering
Image QualityEnhancement
OCR
Intelligent Character Recognition
89
Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam
• Character Identification• Robust filter to extract text candidate frames
• 25 fps results in 90.000 frames per 60 min
• too expensive for single frame preprocessing & OCR
• fast and robust text identification for preprocessing
TTTTT T TT T T
Frame Frame with CandidateTextboxes
Intelligent Character Recognition
90
Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam
Features used for Character Identification:• Edge Based Detection
• DCT
• Fourier Transformation
• Sobel-/Canny Edge Filter
• Histogram of Oriented Gradients (HOG)
• Constant Gradient Variance (CGV)
• Texture Based Detection
• Local Binary Patterns (eLBP)
• Spatial Variance
• Region Based Detection
• Connected Component Analysis (cvBlobs)
• Stroke Width Analysis (SWA)
Intelligent Character Recognition
91
Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam
• Analytical Textbox Filtering• Horizontal & Vertical Projection Profile
• Stroke Width Analysis Based Verification
Frame with Verified
Textboxes
Frame with CandidateTextboxes
Intelligent Character Recognition
92
Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam
Analytical Edge Based Character Identification
Intelligent Character Recognition
93
Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam
Analytical Edge Based Character Identification
Intelligent Character Recognition
94
Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam
Character Binarization
Original Video
Frames
TextboxQuality
Enhancement
TextboxNormalization
andBinarization
Intelligent Character Recognition
95
Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam
Character Binarization• Skeleton Mapping
Intelligent Character Recognition
96
Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam
Standard Optical Character Recognition• OCRopus 0.4.4 (Open Source, Apache License v2.0)
• Tesseract 3.01 (Open Source, Apache License v2.0)
Quality EnhancedNormalized Textboxes
Ueutsche Bank
Weubrandenburg
Raw OCR Results
Intelligent Character Recognition
97
Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam
OCR Post Processing• OCR-adapted Spell Correction (hunspell 1.3.2, OPen Source GNU lGPL)
• Kontextbasierte Spell Correction (siehe kontextbasierte Named Entity Recognition, AP 4.1.5)
Deutsche Bank
Neubrandenburg
OCR Results after Spell Correction
Ueutsche Bank
Weubrandenburg
Raw OCR ResultsOCR-adapted
hunspell
Intelligent Character Recognition
98
Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam
Face DetectionFace TrackingFace Clustering
99
Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam
• Face DetectionDetektion von Gesichtern in Einzelbildern
• Kaskade unterschiedlicher Filter
lbpcscade
haarcscade
libface
Face Detection Tasks
100
Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam
• Face TrackingVerfolgung eines detektierten Gesichts in einer Szene innerhalb eines Videos
• probabilistische Mappingkriterien:
• Zentrumsdistanz der aufeinanderfolgenden Bounding Boxes
• Überlappungsfläche der aufeinanderfolgenden Bounding Boxes
• Größenänderung aufeinanderfolgender Bounding Boxes
Face Detection Tasks
101
Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam
• Face ClusteringGruppierung der entdeckten Gesichter in einem Video nach Ähnlichkeitskriterien
Face Detection Tasks
102
Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam
• Face ClusteringGruppierung der entdeckten Gesichter in einem Video nach verschiedenen Ähnlichkeitskriterien
• Bounding Box Extension:
• Einbeziehung von Bereichen oberhalb (Haare) und unterhalb (Kleidung) der Bounding Box in die Feature Extraktion
• Feature Extraction:
• Texturbasierte Features (eLBP, GVC)
• Farbbezogene Features (Chrominanz Histogramme)
• Clustering:
• Bestimmung der Clusteranzahl k (via Silhuettenkoeffizient-Optimierung)
• k-means Clustering / Mean Shift Clustering / Hierarchical Clustering
Face Detection Tasks
103
Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam
Visual Concept Detection
104
Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam
• Adaption des ,Bag of Words‘ Ansatzes aus dem Textretrieval
• Dictionary/Codeword Vocabulary
• Sätze werden als Vektoren über Dictionary dargestellt
Visual Concept Detection
105
Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam
• Adaption des ,Bag of Words‘ Ansatzes aus dem Textretrieval
• Dictionary/Codeword Vocabulary
• Sätze werden als Vektoren über Dictionary dargestellt
• Diskretisierung eines Einzelbildes mit Hilfe der Codewörter
Visual Concept Detection
106
Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam
• Adaption des ,Bag of Words‘ Ansatzes aus dem Textretrieval
• Dictionary/Codeword Vocabulary
• Sätze werden als Vektoren über Dictionary dargestellt
• Diskretisierung eines Einzelbildes mithilfe der Codewörter
• Repräsentiere Einzelbild als Histogramm der 4000 Codewortfrequenzen
• Konzeptzuordnung durch maschinelles Lernverfahren (hier Support Vector Machines)
Visual Concept Detection
107
Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam
Mediaglobe Related Concepts• Konzepte, die in Mediaglobe erkannt werden sollen:
• Personen
• Porträt / Kleingruppe / Menschenmassen
• Day / Night
• Indoor / Outdoor
• Architektur:
• Brücken
• Baudenkmäler, wie z.B. Kirchen, Schlösser, Burgen
• repräsentative Einzeldenkmale (experimentell)
• Stadt / Natur
• Park / Felder / Grünflächen
• Wald / Gewässer / Gebirge
• Objekte
• Fahrzeuge (Auto / Bahn / Schiff / Flugzeug)
Visual Concept Detection
108
Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam
109
Multimedia Analyse-Technologien
1. Motivation / Einführung (menschl. Wahrnehmung, Farbmodelle)
2. Digitalisierung von Bildern (Abtastung, Kompressionsverfahren, JPEG)
3. Videokodierung und -kompression (Subsamping, prediktive Kodierung, MPEG-Verfahren, Formate und Codecs)
4. Visuelle Analyse
1. Low-Level Processing (Filter, Kanten, morph. Operation, ...)
2. Bildbeschreibende Eigenschaften (Features: Norm, Histogramme, Entropie, LBP, Distanzmaße)
3. Analysemethoden (analytische Methoden, Lernverfahren)
4. High-Level Processing (Beispiele: Segmentierung, OCR, Faces, u. A. )
5. SEMEX Demo
6. naive Verfahren zur Key-Frame Extraction
109
Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam
110
Multimedia Analyse-Technologien
1. Motivation / Einführung (menschl. Wahrnehmung, Farbmodelle)
2. Digitalisierung von Bildern (Abtastung, Kompressionsverfahren, JPEG)
3. Videokodierung und -kompression (Subsamping, prediktive Kodierung, MPEG-Verfahren, Formate und Codecs)
4. Visuelle Analyse
1. Low-Level Processing (Filter, Kanten, morph. Operation, ...)
2. Bildbeschreibende Eigenschaften (Features: Norm, Histogramme, Entropie, LBP, Distanzmaße)
3. Analysemethoden (analytische Methoden, Lernverfahren)
4. High-Level Processing (Beispiele: Segmentierung, OCR, Faces, u. A. )
5. SEMEX Demo
6. naive Verfahren zur Key-Frame Extraction
110
Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam
Idee: ■ Finde das Frame in einem Video-Segment, dass den geringsten
Abstand zu allen anderen Frames des Segments hat.
Also:
■ (1) das Durchschnittsframe D eines Segmentes berechnen
■ (2) alle Frames Fi mit D vergleichen (z.B. via L2-Norm)
■ (3) das Frame mit geringsten Abstand gewinnt
Multimedia Analyse-TechnologienNaive-Keyframe-Extraction
111
Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam
Literatur
• Gibbon, D. ; Liu, Z. : Introduction to Video Search Engines. Berlin : Springer, 2008
• Bradski, G. ; Kaehler, A. : Learning OpenCV. Beijing : O'Reilly, 2008
• Blog zur Webseite:http://mumat2012.blogspot.com/
Multimedia Analyse-Technologien
112