jani pavli c ucinkovitost razli cnih video … · dct { diskretna kosinusna transformacija (ang....
TRANSCRIPT
UNIVERZA V MARIBORU
FAKULTETA ZA ELEKTROTEHNIKO,
RACUNALNISTVO IN INFORMATIKO
Jani Pavlic
UCINKOVITOST RAZLICNIHVIDEO-STANDARDOV GLEDE
NA FAKTOR STISKANJAMagistrsko delo
Maribor, avgust 2017
UCINKOVITOST RAZLICNIH
VIDEO-STANDARDOV GLEDE NA FAKTOR
STISKANJA
Magistrsko delo
Student: Jani Pavlic
Studijski program: Medijske komunikacije
Mentor: izr. prof. dr. Marjan Druzovec
Lektorica: Ana Zagar, mag. prof. slov. j.
UCINKOVITOST RAZLICNIH VIDEO-STANDARDOV GLEDE
NA FAKTOR STISKANJA
Kljucne besede: Stiskanje videa, video-standardi, faktor stiskanja, objektivna vizualna
kakovost.
UDK: 721.397:004.627(043.2)
Povzetek
Magistrsko delo je osredotoceno na ucinkovitost razlicnih video-standardov za stiskanje z
izgubo podatkov. Predstavljene so razlicne tehnike stiskanja in razvoj standardov. V teo-
reticnem delu sta definirana tudi faktor stiskanja in objektivna vizualna kakovost. Em-
piricna raziskava vsebuje eksperiment stiskanja razlicnih videov s standardi MPEG-2,
MPEG-4 Visual, H.264 in H.265. V namen primerjave ucinkovitosti so izracunani faktorji
stiskanja pri doloceni objektivni vizualni kakovosti. Sledi razlaga rezultatov in ugotovitev.
i
EFFICIENCY OF DIVERSE VIDEO STANDARDS
ACCORDING TO THE COMPRESSION FACTOR
Key words: Video compression, video standards, compression factor, objective visual
quality.
UDK: 721.397:004.627(043.2)
Abstract
The master’s thesis deals with the subject of efficiency of various video standards for lossy
compression. It outlines the development of standards and different compression tech-
niques. The theoretical part also defines the compression factor and objective visual qua-
lity. The empirical part of the thesis consists of an experiment on compression of multiple
videos with MPEG-2, MPEG-4 Visual, H.264 and H.265 standards. For the purpose of
efficiency comparison, compression factors at specified objective visual qualities are calcu-
lated. This is followed by an interpretation of the results obtained.
ii
Kazalo
1 UVOD 1
2 RAZVOJ IN DIGITALIZACIJA VIDEA 3
2.1 Analogni video . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
2.2 Digitalni video . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
3 STISKANJE VIDEA 7
3.1 Osnove stiskanja . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
3.1.1 Casovno stiskanje . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
3.1.2 Prostorsko stiskanje . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
3.1.3 Entropijsko kodiranje . . . . . . . . . . . . . . . . . . . . . . . . . . 15
3.1.4 Postopek kodiranja . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
3.2 Video-standardi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
3.2.1 H.261 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
3.2.2 MPEG-1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
3.2.3 MPEG-2 (H.262) . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
3.2.4 MPEG-4 Visual . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
3.2.5 H.264/AVC/MPEG-4 Part 10 . . . . . . . . . . . . . . . . . . . . . 27
3.2.6 H.265/HEVC/MPEG-H Part 2 . . . . . . . . . . . . . . . . . . . . 32
3.2.7 Raziskovalni model JEM . . . . . . . . . . . . . . . . . . . . . . . . 36
3.3 Faktor stiskanja . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
3.4 Video datotecni formati . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
4 OBJEKTIVNA VIZUALNA KAKOVOST 39
4.1 PSNR . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
4.2 SSIM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
4.3 Izbira meritev . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
iii
5 EMPIRICNA RAZISKAVA 44
5.1 Metodologija . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
5.2 Izbira videoposnetkov . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
5.3 Uporaba programske opreme in vhodni parametri . . . . . . . . . . . . . . 50
5.3.1 Handbrake . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
5.3.2 FFmpeg . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
5.4 Eksperiment . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
5.4.1 Rezultati eksperimenta . . . . . . . . . . . . . . . . . . . . . . . . . 54
5.4.2 Faktor stiskanja . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
5.4.3 Upostevanje omejitev . . . . . . . . . . . . . . . . . . . . . . . . . . 59
6 SKLEP 61
VIRI 63
iv
Slike
3.1 Kodirnik – dekodirnik . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
3.2 Primer razdelitve okvirja na bloke . . . . . . . . . . . . . . . . . . . . . . . 8
3.3 Zaporedje okvirjev I, P, B . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
3.4 Primer treh okvirjev. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
3.5 Okvirji razlike pri razlicnih velikostih blokov . . . . . . . . . . . . . . . . . 11
3.6 Iskalno obmocje podobnega bloka . . . . . . . . . . . . . . . . . . . . . . . 12
3.7 Primer VOP kodiranja . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
3.8 Kodiranje slikovnih tock . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
3.9 Primer 8 x 8 vzorcev DCT . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
3.10 Makroblok . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
3.11 Primer strukture rezin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
3.12 H.264 kodiranje . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
3.13 Filter, ki reducira popacenje blokov . . . . . . . . . . . . . . . . . . . . . . 29
3.14 Fleksibilno razvrscanje makroblokov . . . . . . . . . . . . . . . . . . . . . . 30
3.15 CTU in CTB . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
3.16 CTB in CB . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
3.17 Struktura CU . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
3.18 Delitev CB na PB in TB . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
4.1 SSIM - primer strukturne spremembe . . . . . . . . . . . . . . . . . . . . . 42
4.2 Primer meritve SSIM in MSE . . . . . . . . . . . . . . . . . . . . . . . . . 42
5.1 Testni video 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
5.2 Testni video 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
5.3 Testni video 3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
5.4 Testni video 4 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
5.5 Testni video 5 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
5.6 Testni video 6 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
5.7 Testni video 7 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
v
5.8 Nastavitve kodiranja. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
5.9 Okvirja dveh stisnjenih videov . . . . . . . . . . . . . . . . . . . . . . . . . 57
vi
Tabele
3.1 Primerjava med H.261 in MPEG-1 . . . . . . . . . . . . . . . . . . . . . . 19
3.2 Sest slojev v MPEG-1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
3.3 Razlike med MPEG-1 in MPEG-2 . . . . . . . . . . . . . . . . . . . . . . . 21
3.4 Mozne kombinacije nivojev s profili pri MPEG-2 . . . . . . . . . . . . . . . 22
3.5 MPEG-4 Visual profili in objekti . . . . . . . . . . . . . . . . . . . . . . . 25
3.6 Nivoji H.265 z omejitvami . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
5.1 Tehnicna priporocila spletnih mest . . . . . . . . . . . . . . . . . . . . . . 45
5.2 Rezultati eksperimenta . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
5.3 Faktor stiskanja . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
5.4 Casovni intervali in spremembe faktorja stiskanja . . . . . . . . . . . . . . 58
vii
Seznam uporabljenih kratic:
AVC – Napredno video kodiranje (ang. advanced video coding)
ASO – Arbitrarno razvrscanje kosov (ang. arbitrary slice ordering)
CABAC – Kontekstno-prilagodljivo binarno aritmeticno kodiranje (ang. context-adaptive
binary arithmetic coding)
CAVLC – Kontekstno-prilagodljivo kodiranje variabilne dolzine (ang. context-adaptive
variable length coding)
CIF – Splosen vmesni format (ang. Common intermediate format)
CTU – Enota kodirnega drevesa (ang. coding tree unit)
DCT – Diskretna kosinusna transformacija (ang. discrete cosine transform)
FMO – Fleksibilno razvrscanje makroblokov (ang. flexible macroblock ordering)
FPS – Stevilo okvirjev na sekundo (ang. frames per second)
GOB – Skupina blokov (ang. group of blocks)
GOP - Skupina slik (ang. group of pictures)
HD – Visoka locljivost (ang. high definition)
HEVC – Visoka ucinkovitost video kodiranja (ang. High Efficiency Video Coding)
IEC – Mednarodna elektrotehniska komisija (ang. International electrotechnical commiss-
sion)
ISO – Mednarodna organizacija za standardizacijo (ang. International organization for
standardization)
MB – Makroblok (ang. macroblock)
MC – Kompenzacija gibanja (ang. motion compensation)
ME – Ocena gibanja (ang. motion estimation)
MPEG – Ekspertna skupina za gibljive slike (ang. Moving picture experts group)
MSE – Povprecje kvadratne napake (ang. mean squared error)
MVD – Razlika vektorja gibanja (ang. motion vector difference)
PSNR – Maksimalno razmerje signal - sum (ang. peak signal to noise ratio)
SNR – Razmerje med signalom in sumom (ang. signal to noise ratio)
viii
SSIM – Indeks strukturne podobnosti (ang. structural similarity index)
SVC – Prilagodljivo video kodiranje (ang. scalable video coding)
VLC – Kodiranje spremenljive dolzine (ang. variable length coding)
WWP – Paralelno procesiranje (ang. wavefront parallel processing)
QCIF – Cetrtina CIF (ang. quater CIF)
QTBT – Stirikratna binarna drevesa (ang. quadtree plus binary tree)
ix
UVOD
1 UVOD
Digitalni video vsebuje veliko kolicino podatkov in tako zavzema velik del pomnilniskega
prostora pri shranjevanju in pasovne sirine pri prenosu podatkov. Pomemben je razvoj
algoritmov za stiskanje podatkov, ki zmanjsajo velikost in bitno hitrost videoposnetka, ven-
dar ohranijo relativno enako percepcijo. Tovrstni algoritmi se izvajajo znotraj razlicnih
video-standardov, ki skozi razvoj izboljsujejo ucinkovitost oziroma faktor stiskanja. Sle-
dnji predstavlja razmerje med bitno hitrostjo originalnega in bitno hitrostjo stisnjenega
videa. Vecji kot je faktor stiskanja pri doloceni kakovosti, ucinkovitejsi so algoritmi video-
standardov.
Namen magistrskega dela je preucitev stiskanja videa in raziskava delovanja ter ucinkovitosti
razlicnih video-standardov v dolocenem casovnem obdobju. Pri tem je delo osredotoceno
na stiskanje z izgubo podatkov. V raziskavi izhajamo iz predpostavke, da sodobnejsi stan-
dardi v primerjavi z njihovimi predhodniki zagotavljajo enako vizualno kakovost pri nizji
bitni hitrosti oziroma visjem faktorju stiskanja. Vizualna kakovost slike in videa je lahko
subjektivna ali objektivna. Raziskava je omejena na objektivno ocenjevanje kakovosti
videa z meritvama PSNR in SSIM, ki stisnjeni video primerjata z originalnim.
V drugem poglavju je opisan razvoj videa in potreba po stiskanju, ki je natancneje opre-
deljena v tretjem poglavju. V slednjem so izpostavljene bistvene znacilnosti stiskanja z
izgubo podatkov in nekatere specifikacije izbranih video-standardov. Na koncu tretjega po-
glavja je definiran faktor stiskanja, ki sluzi kot spremenljivka za ugotavljanje ucinkovitosti
stiskanja v empiricnem delu.
1
UVOD
V cetrtem poglavju je opisan koncept objektivne vizualne kakovosti z izpostavitvijo me-
ritev PSNR in SSIM. Opredeljeni sta razlika med meritvama in njuna uporabnost pri
ocenjevanju vizualne kakovosti.
Empiricni del (peto poglavje) vsebuje implementacijo eksperimentalne raziskave in ugoto-
vitve, kako se je ucinkovitost stiskanja spreminjala z razvojem algoritmov oziroma standar-
dov. Pri tem je upostevana omejitev na dolocene standarde tipa MPEG in H.26x pri bitni
hitrosti, primerni za spletna mesta. Stiskanje je bilo izvedeno nad sedmimi videoposnetki
pri relativno enaki vizualni kakovosti, torej pri priblizno enaki PSNR in SSIM vrednosti.
Na koncu so za vsak standard izracunani faktorji stiskanja, iz cesar sledijo ugotovitve in
opisi rezultatov.
2
RAZVOJ IN DIGITALIZACIJA VIDEA
2 RAZVOJ IN DIGITALIZACIJA VIDEA
V tem poglavju je opisan razvoj videa z opredelitvijo konceptov analognega in digitalnega
videa. S tem je namescena scena za stiskanje videa, ki je podrobneje opisana v naslednjem
poglavju.
2.1 Analogni video
Pri analognem videu kamera skozi objektiv projicira sliko na slikovni senzor in jo pretvori
v analogne signale, ki se cez cas razlikujejo po intenzivnosti in barvi v razlicnih delih slike
[58]. Analogni signali so lahko predstavljeni z delovanjem analognih televizij, ki temeljijo
na katodnih ceveh (CRT). Katoda, ki se nahaja na zadnji strani cevi, oddaja tok elektro-
nov. Njena sprednja stran je pozitivna in privlaci negativno nabite elektrone. Prevlecena
je s fosforjevo spojino, ki kineticno energijo elektronov spremeni v svetlobo. Blisk svetlobe
traja samo del sekunde, zato je za konstantni prikaz potrebno sliko osvezevati nekajkrat
na sekundo. Zgodnji eksperimenti pionirjev filmov kazejo, da je za gladko in tekoco ani-
macijo primerna hitrost osvezevanje 15 slik oziroma okvirjev na sekundo (fps). Z razvojem
filmske industrije se je hitrost osvezevanja dvignila na 24 fps. Pojavili so se trije televi-
zijski standardi – PAL, SECAM in NTSC, ki dolocajo hitrost osvezevanja okvirjev. PAL
in SECAM podpirata video pri hitrosti 25 fps, medtem je pri NTSC hitrost 30 oziroma
natancneje 29,97 fps [58].
Poznamo dva nacina skeniranja, ki ju Chen idr. [4] opredeljujejo na naslednji nacin:
• Progresivni nacin: V progresivnem nacinu je vsaka slika v sekvenci okvir (ang.
3
RAZVOJ IN DIGITALIZACIJA VIDEA
frame). Sekvenca sestoji iz serije okvirjev, ki so s periodo okvirja loceni v casu.
• Nacin s prepletanjem: Ta nacin skeniranja je pogost pri analognih TV standardih,
kot so NTSC, PAL in SECAM. V nacinu skeniranja s prepletanjem je okvir sestavljen
iz dveh polij, pri cemer polje vsebuje vsako drugo vrstico okvirja (sode in lihe).
Tudi Salomon in Motta [58] video s prepletanjem opredelita pri analogni TV. Navajata, da
se elektronski zarek prizge in ugasne zelo hitro. Premika se v vertikalnih in horizontalnih
linijah. Po narocilu signala strojna oprema ugasne zarek, ga premakne na levi zgornji
kot zaslona in ga prizge ter preleti horizontalno linijo. Na koncu prve vrstice se zarek
ugasne, premakne nazaj in rahlo navzdol ter zacne s tretjo (ne drugo) vrstico. Prvo polje
je sestavljeno iz sodih vrstic. Na koncu zadnje vrstice se zarek premakne na zacetek
naslednjega polja, ki je sestavljeno iz lihih vrstic. Dve polji skupaj predstavljata okvir, pri
cemer je slika tako rekoc prepletena [58].
Thomas Edison je pri izdelavi prvih filmskih kamer in projektorjev izbral razmerje slike
4 : 3 (1,33), ki se je uporabljalo pri zgodnjih televizijah v letu 1930. Leta 1950 se je
filmska industrija po testiranju gledalcev odlocila, da zacne z razmerji 1,85 ali vec. Pod
tem vplivom so se tudi razvijalci digitalnega videa (poglavje 2.2) odlocili za razmerje 16 : 9
[58].
S pojavitvijo barvnega televizijskega prenosa, v zgodnjih petdesetih, je signal postal sku-
pek komponente svetilnosti (Y) in dveh komponent barvnosti (U in V1). Pri tem Salomon
in Motta [58] izpostavita glavno prednost v enotnosti signala – ce je poslan po brezzicni
povezavi, je potreben samo en frekvencni pas in ce je poslan po kablu, je uporabljen samo
en kabel. Slednje komponente so pomembne tudi pri stiskanju videa. Cloveski vizualni
sistem (HVS) je namrec manj obcutljiv na barve kot na svetilnost. V modelu RGB so vse
tri barve enako pomembne in se obicajno hranijo pri enaki resoluciji, vendar je barvno
sliko mogoce uporabiti bolj ucinkovito s svetilnostjo pri visji resoluciji [57].
1Komponenti barvnosti sta v viru [58] oznaceni tudi kot Cb in Cr ter I in Q.
4
RAZVOJ IN DIGITALIZACIJA VIDEA
2.2 Digitalni video
Razvoj je pripeljal do digitalizacije videa, kar pomeni, da so zajeti signali pretvorjeni v
digitalno obliko, ki vkljucuje vzorcenje in kvantizacijo [53]. Vzorcenje analognega signala
ustvari vrednosti na dolocenih casovnih in prostorskih tockah, zato locimo med casovnim
in prostorskim vzorcenjem vizualne scene, ki jo reprezentira digitalni video. Scena je
vzorcena v doloceni casovni tocki, ki jo predstavlja okvir, in prostoru, ki ga predstavljajo
prostorski vzorci oziroma slikovne tocke. Vzorcenje se ponavlja z doloceno frekvenco (npr.
1/25 ali 1/30 sekundni intervali) in tako ustvari iluzijo gibanja [57].
Vsaka slikovna tocka je predstavljena s stevilko, ki specificira njeno barvo. Locljivost
oziroma resolucija videa predstavlja stevilo horizontalnih slikovnih tock pomnozenih s
stevilom vertikalnih slikovnih tock slikovnega okvirja. Tako ima npr. visoka locljivost (HD)
1920 x 1080 slikovnih tock. Slikovne tocke zavzemajo doloceno stevilo bitov [53]. Salomon
in Motta [58] prikazujeta tabelo preprostega izracuna, iz katere je razvidno, da bi video z
locljivostjo HD (1920 x 1080) pri 60 slikovnih okvirjih na sekundo in 24 bitnimi slikovnimi
tockami zasedel 2.985.984.000 bitov oziroma priblizno 373 megabajtov pomnilniskega pro-
stora. Pri vecjih resolucijah, kot je npr. 4K oziroma ultra visoka locljivost (4096 x 2160)
[43], bi posnetki ne stisnjenega formata zavzeli se vec prostora. Oddajnik bi moral odda-
jati veliko kolicino podatkov v zgolj eni sekundi, zato se je pojavila potreba po stiskanju2
videa. Bitna hitrost pomeni stevilo prenesenih podatkov na casovno enoto [66] oziroma
stevilo bitov, ki so procesirani v doloceni casovni enoti. Pogosto je merjena v bitih na
sekundo (bps), kilobitih na sekundo (kbps) ali megabitih na sekundo (Mbps). Od nje je
odvisna tudi kakovost videoposnetkov [11].
Po digitalizaciji video signala kodirnik surov video kodira v stisnjenega glede na sintakso
ali semantiko, specificirano v video kodirnem standardu (poglavje 3). Video je razdeljen
v hierarhijo naslednjih plasti: video sekvenca, skupina slik (GOP), slika, skupina blokov
(GOB), makroblok in blok. Imena in funkcije vsake plasti se lahko razlikujejo glede na
2Stiskanje je slovenski izraz, ki smo ga uporabljali v magistrskem delu. Sicer stiskanje pomeni kom-presijo oziroma v anglescini ”compression”. Koncept je definiran v naslednjem poglavju.
5
RAZVOJ IN DIGITALIZACIJA VIDEA
standard, vendar pomen ostaja enak [4].
6
STISKANJE VIDEA
3 STISKANJE VIDEA
To poglavje je osredotoceno na stiskanje oziroma kodiranje videa z izgubo podatkov, ka-
terega primarni cilj je enaka percepcija stisnjenega videoposnetka, ki sicer ni enak ne sti-
snjenemu [54]. Vkljucene so osnove stiskanja, specifikacije video-standardov in definicija
faktorja stiskanja.
3.1 Osnove stiskanja
Stiskanje vkljucuje komplementarni par sistemov – kodirnik in dekodirnik. Kodirnik pre-
tvori izvorne podatke v stisnjeno obliko, dekodirnik pa pretvori stisnjeno obliko v repre-
zentacijo originalnih podatkov (slika: 3.1). Par kodirnik – dekodirnik se pogosto oznacuje
kot kodek [57].
Slika 3.1: Kodirnik – dekodirnik [57].
Video kodek kodira vir video sekvence v stisnjeno obliko in jo dekodira tako, da ustvari
kopijo oziroma priblizek izvorni sekvenci. Kodirni proces je brez izgube, ce je dekodirana
video sekvenca identicna originalni. Ce se dekodirana sekvenca razlikuje od originalne,
je proces z izgubo podatkov. Kodek reprezentira originalno video sekvenco z modelom,
ki naj bi predstavljal sekvenco z najmanjsim moznim stevilom bitov pri najvisji mozni
7
STISKANJE VIDEA
kakovosti, ucinkovitost stiskanja in visoka kakovost pa sta pogosto v konfliktu [57].
Salomon in Motta [58] navajata, da video stiskanje temelji na dveh principih. Prvi je
prostorska redundanca, ki obstaja znotraj vsakega okvirja zaradi korelacije slikovnih tock.
Drugi je casovna redundanca, kar pomeni, da je vecina okvirjev podobna sosednjim (pred-
hodnemu ali naslednjemu okvirju). Pri stiskanju gre za redukcijo casovne in prostorske
redundance [58].
Okvirji pa niso primerjani neposredno, temvec so razdeljeni na manjse enote. Ohm idr. v
clanku [52] navajajo, da vsi video kodirni standardi od H.261 (v letu 1990) sledijo hibri-
dnemu video kodirnemu postopku, ki temelji na slikovnih blokih oziroma tako imenovanih
makroblokih. Vsak blok slike je lahko kodiran znotraj okvirja (ang. intra picture), brez
reference na ostale okvirje sekvence, ali med okvirji (ang. inter picture), kjer signal for-
mira blok ze kodiranega predhodnega okvirja. Na sliki 3.2 lahko vidimo razdelitev okvirja
na razlicne velikosti blokov pri standardu H.265 [60]. Kot je zapisano v nadaljevanju, so
velikosti blokov odvisne od posameznega video-standarda.
Slika 3.2: Primer razdelitve okvirja na bloke [60].
Chen idr. [4] omenjajo redukcijo spektralne redundance. Clovesko oko je bolj obcutljivo
na komponento svetilnosti (Y) kot na komponenti barvnosti (U in V), zato je redukcija
8
STISKANJE VIDEA
spektralne redundance dosezena s transformacijo barvnega prostora RGB (rdeca, zelena,
modra) v YUV oziroma YCrBr (svetilnost–barvnost) in pod vzorcenjem komponent barv-
nosti (npr. 4:2:2 vzorcenje). Vzorcenje 4:2:2 pomeni, da imata komponenti barvnosti po-
lovico horizontalne resolucije komponente svetilnosti, medtem ko 4:2:0 pomeni, da imata
polovico horizontalne in vertikalne resolucije komponente svetilnosti. Pri vzorcenju 4:4:4
so resolucije izenacene [57]. Avtorji Chen idr. [4] izpostavljajo, da video sistemi za stiska-
nje kombinirajo prostorske, casovne in spektralne redukcijske tehnike redundance.
3.1.1 Casovno stiskanje
Pri casovnem stiskanju (redukcija casovne redundance) je mogoce na podlagi trenutnega
okvirja in informacije gibanja kodirati naslednji okvir. Okvir, ki se kodira ali dekodira zno-
traj slike z redukcijo prostorske redundance in neodvisno od ostalih okvirjev, se oznacuje
s crko I (ang. intra frame). Okvir P (ang. predicted) je kodiran s sklicevanjem na prejsnji
okvir I ali P. Okvir, ki temelji na prejsnjem in naslednjem, se oznacuje s crko B (ang.
bidirectional). Primer zaporedja okvirjev je prikazan na sliki 3.3. Okvirji I se ne pojavijo
samo na zacetku sekvence, ampak veckrat tudi med sekvenco [58]. Slabost okvirja I je,
da potrebuje veliko stevilo bitov. Okvirji tipa P obicajno zahtevajo manj bitov, vendar
zaradi odvisnosti od prejsnjih okvirjev bolj verjetno vsebujejo napake [2].
Slika 3.3: Zaporedje okvirjev I, P, B [58].
Tehnika za odpravljanje casovne redundance se imenuje kompenzacija gibanja oziroma
MC (ang. motion compensation). Slednja je lahko osnovana na blokih in objektih. Prva
9
STISKANJE VIDEA
tehnika se imenuje blocna kompenzacija gibanja, druga pa globalna kompenzacija giba-
nja. Skupno obema je iskanje ujemanja gibanja in kompenzacija le-tega [57]. V spodnjih
odstavkih sta opisana oba pristopa, zacensi z blocno kompenzacijo.
Pri casovnem modelu ima pomembno vlogo tako imenovani referencni okvir oziroma pred-
hodno kodirani okvir, ki je lahko v vrstnem redu predvajanja prikazan pred ali po trenu-
tnem okvirju. Ce je za referenco izbran prihodni okvir, mora biti kodiran pred trenutnim
okvirjem. Referencni okvir torej sluzi kot referenca za trenutni okvir. Okvir razlike je
ustvarjen z odstevanjem referencnega okvirja od trenutnega okvirja. Srednje siva barva
na sliki 3.4 v okvirju razlike ne predstavlja razlike med okvirjema, medtem ko se sve-
tlejsa in temnejsa sklicujeta na razlike oziroma spremembe. Spremembe v okvirju sprozi
gibanje (gibanje objektov, gibanje kamere, odkrivanje scene) in sprememba osvetlitve.
Spremembe, z izjemo odkrivanja scene in spremembo osvetlitve, so lahko predstavljene s
premikanjem slikovnih tock med okvirji. Pri tem je mogoce izracunati vektorje gibanja uje-
majocih slikovnih tock med dvema sosednjima okvirjema, vendar to ni prakticna metoda,
saj je zaradi prevelikega stevila vektorjev potrebnega veliko racunanja, kar upocasnjuje
postopek kodiranja in dekodiranja [57].
Slika 3.4: Primer treh okvirjev [57].
Priljubljen kriterij ujemanja je razdelitev okvirja na bloke. Pri tem se v namen ujemanja
izbere blok z minimalno energijo oziroma spremembo gibanja. Z vsakim ujemajocim blo-
kom se energija v okvirju razlike reducira. Manjsi bloki dodatno zmanjsajo energijo (slika
10
STISKANJE VIDEA
3.5). Proces iskanja najboljsega ujemanja blokov se imenuje ocena gibanja oziroma ME
(ang. motion estimation) [57]. Postopek iskanja blokov poteka tako, da se za makroblok
(MB) trenutnega okvirja v referencnem okvirju najde makroblok MB’, ki je identicen ali
podoben MB. Iskanje je obicajno omejeno na majhno obmocje okoli bloka, ki je definirano
z najvecjim premikom parametrov dx in dy (slika 3.6). Ko kodirnik najde ustrezen blok,
zapise razliko med predhodno in trenutno lokacijo bloka. Ta razlika je v obliki spremembe
koordinat in se imenuje vektor gibanja. Ko je izbran blok MB’, kot najbolj ujemajoc bloku
MB, se izracuna vektor gibanja kot razlika med zgornjim levim kotom bloka MB’ in zgor-
njim levim kotom bloka MB [58]. Izbran najbolje ujemajoci blok iz referencnega okvirja
se odsteje od bloka v trenutnem okvirju tako, da se oblikuje blok razlike, ki je kodiran in
prenesen skupaj z vektorjem gibanja. Ta tehnika se imenuje blocna kompenzacija gibanja
[57].
Slika 3.5: Energija v okvirjih razlike pri razlicnih velikostih blokov [57].
Osnovni blok pri standardih tipov H.21x in MPEG se imenuje makroblok. Makrobloki
imajo obicajno velikost 16 x 16 slikovnih tock, vendar so premikajoci deli v video sceni
redko skladni s pravokotno obliko 16 x 16, zato je natancneje, ce se za oceno gibanja
in kompenzacijo gibanja uporabijo spremenljive velikosti blokov. Kompenzacija gibanja
manjsih blokov (npr. 8 x 8 ali 4 x 4) zmanjsa energijo gibanja. To pomeni, da manjsi bloki
ustvarijo natancnejso kompenzacijo gibanja, vendar vodijo do povecane kompleksnosti pri
operacijah iskanja in do povecanega stevila vektorjev gibanja. Ucinkovito je prilagajanje
velikosti bloka slikovnim karakteristikam – uporaba velikega bloka na homogenih obmocjih
11
STISKANJE VIDEA
Slika 3.6: Iskalno obmocje podobnega bloka [58].
okvirja (npr. nebo) in uporaba manjsih blokov na obmocjih, ki so polni podrobnosti in
kompleksnega gibanja [57].
Ocena gibanja in kompenzacija gibanja sta lahko natancnejsi, ce so tocke znotraj blokov
razdeljene na dva ali vec delov. To omogoca izbiro natancnejse pozicije ujemajocega se
bloka, kar minimalizira energijo v bloku razlike [57].
Obstaja tudi kodiranje, ki temelji na ploskvah video objektov (ang. video object plane
– VOP), pri cemer se posebej kodira vsak objekt. Ghanbari [26] kot primer izpostavlja
okvir iz treh VOP-jev – letala, balona in deznika, ki letijo v zraku (slika 3.7). Ostali
prostor video okvirja je oznacen kot ozadje (npr. nebo in oblaki), ki se obicajno kodira
samo enkrat in ne v vsakem okvirju. Ce se v novih okvirjih kodirajo samo premikajoci se
objekti, je lahko bitna hitrost zelo nizka, medtem ko se lahko ob premikajocem se ozadju
bitna hitrost zelo poveca.
Pri video objektih se uporablja globalna kompenzacija gibanja. Makrobloki znotraj ena-
kega video objekta lahko imajo podobno gibanje. Npr. horizontalno gibanje kamere lahko
ustvari podobno gibanje za celotno sceno. Globalna kompenzacija gibanja omogoca kodir-
niku prenos parametrov, ki opisujejo globalno gibanje celotnega objekta VOP. Globalna
kompenzacija gibanja lahko tako izboljsa ucinkovitost stiskanja, saj veliko stevilo makro-
blokov znotraj VOP vsebuje enake karakteristike gibanja [57].
12
STISKANJE VIDEA
Slika 3.7: Primer VOP kodiranja [26].
3.1.2 Prostorsko stiskanje
Pri stiskanju znotraj okvirja se lahko izvede podoben postopek kot pri kompenzaciji gi-
banja med okvirji. Slika 3.8 kaze slikovno tocko X, ki bo kodirana. Kodirnik oblikuje
predvidevanje za tocko X na podlagi kombinacije prej kodiranih slikovnih tock, odsteje to
predvidevanje od X in kodira razliko. Pri tem je ucinkovitost stiskanja odvisna od tocnosti
predvidevanja P (X). Ce je P(X) priblizek X, bo energija razlike majhna in bo posledicno
uporabljenih manj bitov. Novejsi standardi uporabljajo enako tehniko pri predvidevanju
blokov in vsebujejo vec razlicnih nacinov oziroma smeri predvidevanja [57].
Drugi pomemben pristop pri kodiranju znotraj okvirja je transformacija celotnega okvirja
ali zgolj razlike kompenzacije gibanja [57]. Ta tehnika je pri MPEG diskretna kosinusna
transformacija oziroma DCT. Ta je sestavljena iz vhodnih podatkovnih vrednosti p (sli-
kovne tocke) in iz izhodnih transformiranih koeficientov n. Pomembna lastnost funkcije
pri stiskanju je, da se osredotoca le na prvih nekaj transformiranih koeficientov slike, ki se
13
STISKANJE VIDEA
Slika 3.8: Kodiranje slikovnih tock [57]
pojavljajo z nizko frekvenco in so pomembnejsi pri prepoznavanju slike. Na sliki 3.9 lahko
te vzorce zasledimo proti zgornjemu levemu kotu. Vecina manj pomembnih koeficientov
z visoko frekvenco pri DCT je enaka nic [58]. Skeniranje je odvisno od distribucije ne-
nicelnih koeficientov DCT. Obicajno se uporablja cikcak tehnika, z zacetkom skeniranja
koeficienta v zgornjem levem kotu [57]. Gibalno kompenziran DCT oziroma MC-DCT je
hibridni nacin v smislu, da doseze prostorsko in casovno stiskanje [4].
Slika 3.9: Primer 8 x 8 vzorcev DCT [57].
14
STISKANJE VIDEA
Po transformaciji se izvede kvantizacija. Gre za redukcijo dolocenih vrednosti, ki so kvan-
tizirane in jih je zato mogoce predstaviti z manjsim stevilom bitov. Skalarna kvantizacija
spremeni en vzorec vhodnega signala v eno kvantizirano izhodno vrednost. Preprosti
primer je zaokrozevanje racionalnega stevila na najblizje celo stevilo. Tako se reduci-
rajo nepomembne vrednosti, kot so npr. transformirani koeficienti DCT blizu stevila 0.
Obstaja tudi vektorska kvantizacija, ki spremeni skupino vhodnih vektorjev v skupino
kvantiziranih vrednosti oziroma kod [57].
3.1.3 Entropijsko kodiranje
Entropijsko kodiranje pomeni, da kodirnik pretvori serijo elementov videa v stisnjen po-
datkovni niz, ki je primeren za prenos ali shranjevanje. Vhodni elementi so lahko transfor-
mirani koeficienti DCT, vektorji gibanja, glave makroblokov in druge informacije. Nekateri
elementi so v korelaciji, npr. povprecne vrednosti koeficientov DCT v sosednjih blokih in
sosednji vektorji gibanja. Kodiranje vektorja gibanja je lahko izboljsano s predvidevanjem
vsakega vektorja na podlagi ze kodiranih vektorjev. Preprosto predvidevanje za vektor
makrobloka X v trenutnem okvirju je horizontalno sosednji makroblok A. Potem se kodira
razlika vektorja gibanja oziroma MVD (ang. motion vector difference) med vektorjem
makrobloka A in trenutnim vektorjem makrobloka X. [57].
Kodiranje spremenljive dolzine oziroma VLC (ang. variable length encoder) uredi vhodne
elemente v serijo kod s spremenljivo dolzino. Pogosto pojavljajoci elementi so predstavljeni
s kratkimi kodami, medtem ko so manj pogosti elementi predstavljeni z daljsimi kodami.
Zgoraj omenjena razlika MVD je kodirana tako, da so majhne razlike predstavljene s
krajso kodo.
3.1.4 Postopek kodiranja
Video kodirni standardi obicajno temeljijo na splosnem modelu kodiranja. Richardson
[57] predstavlja postopek za blocno kompenzacijo gibanja:
1. Vhodni video okvir Fn predstavlja trenutni video okvir, ki bo stisnjen. Slednji je
15
STISKANJE VIDEA
razdeljen na makrobloke.
2. Fn je primerjan z referencnim okvirjem, npr. prej kodiranim okvirjem Fn − 1. Z
oceno gibanja se najdejo ujemajoci se makrobloki omenjenih dveh okvirjev. Razlika
med lokacijo makrobloka okvirja Fn− 1 in Fn je vektor gibanja.
3. Izbran makroblok referencnega okvirja je odstet od makrobloka v trenutnem okvirju,
kar ustvari makroblok razlike Dn.
4. Dn je transformiran z uporabo DCT.
5. Vsak blok je kvantiziran (X).
6. Kodirajo se koeficienti DCT.
7. Koeficienti, vektorji gibanja in drugi elementi so entropijsko kodirani za vsak ma-
kroblok, kar ustvari stisnjen podatkovni niz.
Slika postopka je vkljucena pri opisovanju standarda H.264 (slika 3.12).
3.2 Video-standardi
Video-standard je dokument, ki opisuje kodirne metode za stiskanje videa. Vsak standard
opisuje video v stisnjeni obliki in metode dekodiranja za rekonstrukcijo videa. Standard ne
definira kodirnika, temvec izhodno strukturo, ki jo mora kodirnik producirati, kar pomeni,
da se mora kodek skladati s standardom [57]. Standardizacija omogoca kodirnikom in
dekodirnikom razlicnih proizvajalcev, da delujejo skupaj v razlicnih aplikacijah. Standard
tako definira zmogljivosti, ki jim mora ustrezati posamezen video kodek za medsebojno
sodelovanje z ostalimi sistemi [69].
Standarde MPEG sta razvili Mednarodna organizacija za standardizacijo (ISO) in Medna-
rodna elektrotehniska komisija (IEC). MPEG je akronim, ki oznacuje ekspertno skupino
za gibljive slike (ang. Moving Pictures Experts Group) [58].
16
STISKANJE VIDEA
ISO je neodvisna in nevladna mednarodna organizacija s 163 sodelujocimi nacionalnimi
standardnimi organi. Zdruzuje strokovnjake za razvoj mednarodnih standardov, podporo
inovacij in resitev za globalne izzive [40]. IEC je vodilna svetovna organizacija za pripravo
in objavo mednarodnih standardov v povezavi z elektricnimi in elektronskimi tehnologi-
jami, pri cemer ima vsaka sodelujoca drzava en glas [38].
VCEG je akronim, ki oznacuje ekspertno skupino za video kodiranje. Slednja velja za
skupino telekomunikacijskega standardizacijskega sektorja (ITU-T), ki objavlja standarde
druzine H.264x (H.261, H.262, H.263, H.265). Nekateri izmed nastetih so bili razviti skupaj
z MPEG, kot npr. MPEG-4 Part 10 oziroma H.264, zato so obravnavani skupaj [69].
V nadaljevanju so opisani video-standardi, ki si sledijo po casovnem obdobju. Upostevana
je omejitev na standarde tipa MPEG in H.26x, uporabljajo in uveljavljajo pa se sicer tudi
ostali, kot sta npr. Googlov VP8 in VP9 ali Theora [69]. Na zacetku sta na kratko opisana
H.261 in MPEG-1, ki sta pomembno vplivala na razvoj ostalih standardov [4].
3.2.1 H.261
H.261 je definirala skupina ITU-T in je namenjen video telefoniji ter aplikacijam za video
konference. Izpostavlja nizko bitno hitrost in majhen kodirni zamik. Nastal je v letu
1984 in bil namenjen avdiovizualnim storitvam pri bitnih hitrostih okoli m x 384 kbit/s,
kjer m prestavlja stevilo med 1 in 5. V letu 1988 se je fokus premaknil na bitne hitrosti
p x 64 kbit/s, kjer p predstavlja stevilo od 1 do 30 (1 = nizka kakovost, 30 = visoka
kakovost) [4]. Standard je bil uradno potrjen leta 1990 [5].
Podpira format CIF z resolucijo 352 x 288 in QCIF s polovicno resolucijo formata CIF.
Vsak okvir se deli na skupino blokov (GOB), pri cemer v formatu CIF skupina obsega
eno dvanajstino obmocja okvirja, v formatu QCIF pa eno tretjino obmocja [41]. Osnovna
enota znotraj GOB je makroblok in je pri formatu vzorcenja 4:2:0 sestavljena iz glave,
nacina stiskanja, stirih 8 x 8 Y blokov, enega 8 x 8 U bloka in enega 8 x 8 V bloka (slika
17
STISKANJE VIDEA
3.10). V H.261 obstajata dva nacina stiskanja – znotraj okvirja in med okvirji. Pri nacinu
stiskanja znotraj okvirja je uporabljena samo funkcija DCT, medtem ko se pri stiskanju
med okvirji (I in P) izvede kompenzacija gibanja [4].
Slika 3.10: Makroblok [58].
3.2.2 MPEG-1
ISO/IEC sta razvijala standard od leta 1988 do 1993 [58]. Kot ISO standard je bil potrjen
leta 1992 [6], besedilo pa je bilo objavljeno leta 1993. MPEG-1 se je uveljavil pri shranje-
vanju datotek na PC-jih, CD-medijih in prenasanju videa prek spleta [62]. Tipicna bitna
hitrost za video pri omenjenem standardu je 1,150 Mbps.
Temelji na enaki tehniki kot JPEG, s tem da je pri standardu JPEG/Motion ali JPEG
2000 vsak okvir sekvence kodiran kot locena enota, medtem ko se pri standardu MPEG-1
izvede kompenzacija gibanja [54, 57]. Natancnost kompenzacije je polovica slikovne tocke
[62]. MPEG-1 deluje po nacelu hibridnega kodiranja, kombinacije kodiranja z bloki in
kodiranja diskretne kosinusne transformacije oziroma DCT. Kodiranje temelji na makro-
blokih velikosti 16 x 16 in skupini slik oziroma GOP, kjer so definirani tri tipi okvirjev –
I, P in B. Na zacetku GOP mora biti okvir I, da je lahko kodiranje uspesno [62]. V tabeli
3.1 je po avtorjih Chen in Koc [4] povzetih nekaj bistvenih razlik med H.261 in MPEG-1.
18
STISKANJE VIDEA
Tabela 3.1: Primerjava med H.261 in MPEG-1 [4].
H.261 MPEG-1Samo osnovno stevilo okvirjev na sekundo Fleksibilno stevilo okvirjev na sekundo
Samo CIF/QCIF format Fleksibilna velikost okvirjaSamo okvirji I, P Okvirji I, P, B
Brez GOP GOPstruktura GOB Rezine (ang. slices)
Maksimalna velikost slike in stevilo okvirjev sta omejena na 768 x 576 slikovnih tock in 30
okvirjev na sekundo [4]. Slika v MPEG je organizirana v rezine (ang. slices), kjer je vsaka
rezina sestavljena iz makroblokov v horizontalni liniji, ki imajo enako svetilnost. Grafika
3.11 kaze hipoteticno sliko MPEG, ki je razdeljena v rezine. Vsak kvadratek predstavlja
makroblok [58].
Slika 3.11: Primer strukture rezin [58].
MPEG-1 vsebuje razlicne sloje, ki so definirani v tabeli 3.2. Sloj sekvence je sestavljen iz
glave sekvence, ene ali vec GOP in kode na koncu sekvence. V glavi je nekaj pomembnih
informacij, kot sta npr. velikost slike in bitna hitrost. Sloj GOP vsebuje okvirje I, P in B.
Sloj slike je sestavljen iz komponente svetilnosti in dveh komponent barvnosti. Sloj rezine
19
STISKANJE VIDEA
je pomemben pri upravljanju z napakami. Dekoder lahko izpusti poskodovano rezino in
gre na zacetek naslednje. Sloj makrobloka je sestavljen iz (16 x 16) bloka svetilnosti in
ustreznih blokov barvnosti, enako kot pri H.261, medtem ko sloj bloka sestoji iz 8 x 8
slikovnih tock, ki jih transformira DCT [4].
Tabela 3.2: Sest slojev v MPEG-1 [4].
MPEG-1 sloj NamenSloj sekvence Vsebuje eno ali vec GOP
Sloj GOP Uporablja se za nakljucni dostop v sekvenciSloj slike Kodiranje
Sloj rezine (ang. slice layer) ResinhronizacijaSloj makrobloka Enota kompenzacije gibanja
Sloj bloka Enota DCT
3.2.3 MPEG-2 (H.262)
MPEG-2 so razvili v letu 1996 kot izboljsan standard predhodnika MPEG-1. Glavne
pomanjkljivosti omenjenega so bile: slaba resolucija, neucinkovito avdio stiskanje in ne-
podpiranje videa s prepletanjem. MPEG-2 je bil ustvarjen specificno za digitalno tele-
vizijo in podporo filmov na DVD-jih. V tej tocki zgodovine so bili predstavljeni tudi
koncepti profilov in nivojev video-standardov, ki so MPEG-2 omogocili vec fleksibilnosti
[58]. Druga razlicica standarda je bila objavljena v letu 2000, nato so do leta 2002 sledili
se popravki [63].
MPEG-2 zagotavlja napredne tehnike, ki imajo boljso kakovost videa pri enaki bitni hitro-
sti kot MPEG-1 [54]. Hitrost shranjevanja in prenosa podatkov lahko doseze 40 Mbit/s,
pri profesionalnih aplikacijah video produkcije pa celo vec. Podprta je tudi resolucija
HD. MPEG-2 je kompatibilen z MPEG-1, kar pomeni, da je lahko MPEG-1 dekodiran z
MPEG-2 dekoderji. Omogoca preklop na nacin 16 x 8, kjer so definirani loceni vektorji
gibanja za zgornje in spodnje polovice makroblokov. Definirane so metode za kodiranje
sekvenc z razlicnim vzorcenjem komponente barvnosti in dodatnimi 8 x 8 transformacij-
20
STISKANJE VIDEA
skimi bloki, ki so podrejeni makrobloku [63]. Standard je bil razvit za sirok spekter bitnih
hitrosti, resolucij in kakovostnih nivojev. Za razliko od MPEG-1 in H.261, MPEG-2 pod-
pira video s prepletanjem. V tabeli 3.3 so povzete se druge razlike v primerjavi z MPEG-1
[4].
Tabela 3.3: Razlike med MPEG-1 in MPEG-2 [4].
MPEG-1 MPEG-2Nacin skeniranja Progresivno Progresivno / s prepletanjem
Bitna hitrost Do 1,856 Mbps Do 100 MbpsDCT Brez prepletanja Progresivno ali s prepletanjem
Vektor gibanja Samo za P in B okvirje Tudi za I okvirjeSkeniranje DCT Cikcak skeniranje Cikcak skeniranje, alternativno skeniranje
koeficientov za video s prepletanjem
Na spletni strani MPEG [63] navajajo, da aplikacije in naprave ne podpirajo vseh ele-
mentov standarda, zato MPEG-2 definira razlicne profile. Posamezni profil predstavlja
podmnozico algoritmicnih orodij oziroma omejeno sintakso za doloceno aplikacijo. Zno-
traj MPEG-2 obstaja pet profilov s hierarhicno medsebojno povezavo, kar pomeni, da
sintaksa visjega profila vkljucuje tudi sintakso vseh nizjih profilov [4]. Profili, ki jih defi-
nira MPEG-2, so naslednji:
• Enostavni profil (ang. Simple profile): Uporablja se za nizkoproracunske aplikacije,
omogoca resolucijo SD in hitrost okvirjev do 30 fps [63]. Profil ne zagotavlja okvirjev
B, namenjen je snemanju videokaset in ima omejitev bitne hitrosti pri 15 Mbps [4].
• Glavni profil (ang. Main profile): Podpira resoluciji HD in SD aplikacij brez kom-
patibilnega dekodiranja razlicnih resolucij. Omogoca razlicne nacine kodiranja in
predvidevanja, video s prepletanjem in vkljucuje okvirje B [63].
• Prilagodljiv profil SNR (ang. SNR scalable profile): Podoben je glavnemu profilu, s
tem da omogoca SNR prilagodljivost oziroma skalabilnost (ang. scalability) [63].
SNR predstavlja razmerje med nivojem signala in nivojem suma v sliki in se nanasa
21
STISKANJE VIDEA
na kakovost slike [28]. Prilagoditev v tem profilu omogoca dva ali vec slojev kodiranja
z enako prostorsko resolucijo, vendar drugacno kakovostjo SNR [4].
• Prostorsko prilagodljiv profil (ang. Spatial scalable profile): Omogoca uporabo pro-
storske prilagodljivosti, ki je lahko v kombinaciji s prilagodljivostjo SNR [63]. De-
kodirniku omogoca izbiro razlicnih resolucij [4].
• Visoki profil (ang. High profile): Ta profil je podoben prostorsko prilagodljivemu
profilu, s tem da podpira sirsi obseg nivojev in omogoca vzorcenje 4:2:2. Primarno
je bil definiran za kompatibilnost kodiranja z resolucijama HD in SD [63].
Nekateri izmed zgoraj nastetih profilov torej vsebujejo prilagodljivo kodiranje, ki je na-
tancneje opisano pri standardu H.264. Znotraj vsakega profila je specificiran nivo, ki
opisuje maksimalno velikost ali slikovni format dekodiranja. V dolocenih aplikacijskih do-
menah so se uveljavili razlicni profili in nivoji, npr. �Glavni profil@Glavni nivo� je tipicen
za digitalno TV oddajanje ali za shranjevanje na DVD-je. Sicer so definirani stirje nivoji:
Nizki (352 x 288 x 30), Glavni (720x576x30), Visoki-1440 (1440 x 1152 x 60) in Visoki
(1920 x 1152 x 60). Tabela 3.4 prikazuje mozne kombinacije nivojev s profili. Nizki nivo
se torej lahko pojavi le z glavnim in SNR profilom [4].
Tabela 3.4: Mozne kombinacije nivojev s profili pri MPEG-2 [4].
Enostavni Glavni SNR Prostorsko prilagodljiv VisokiVisoki x x
Visoki-1440 x x xGlavni x x x xNizki x x
Z razvojem se je pojavil tudi MPEG-3, ki je bil namenjen stiskanju HDTV. Zanj sta
znacilna prilagodljivost in vec resolucijsko stiskanje, vendar se je izkazal za odvecnega,
zato so bile te funkcije vkljucene v MPEG-2 [58]. Poleg tega je bil v razvoju ze MPEG-4,
zato so standard MPEG-3 izpustili [57].
22
STISKANJE VIDEA
3.2.4 MPEG-4 Visual
Za ustvarjanje, vzdrzevanje in posodabljanje MPEG-4 standardov je odgovorna Ekspertna
skupina za gibljive slike (MPEG), ki razvija standarde za mednarodno organizacijo ISO
[57]. Razvijanje standarda MPEG-4 je bilo osredotoceno na kodiranje pri nizki bitni
hitrosti. Obstaja vec delov standarda, od katerih sta v tej raziskavi izpostavljena dva –
MPEG-4 Part 2 in MPEG-4 Part 10, znan kot H.264/AVC. MPEG-4 Visual oziroma
MPEG-4 Part 2 je bil objavljen leta 1999, druga verzija omenjenega standarda pa v letu
2001. H.264 oziroma MPEG 4 Part 10 je bil objavljen leta 2003 [57]. Gledano v celoti,
ima MPEG-4 v primerjavi z MPEG-2 izboljsana kodirna orodja, zmanjsano obcutljivost
na napake in ucinkovitejse stiskanje. Poleg tega podpira razlicne profile kodiranja [58].
MPEG-4 Visual podpira bitno hitrost med 5 kbit/s in 1 Gbit/s, progresiven in prepletajoc
video, razlicne formate vzorcenja (4:2:0, 4:2:2 in 4:4:4) in resolucijo do 4K. MPEG-4 je z
novimi orodji bistveno izboljsal ucinkovitost stiskanja v primerjavi z MPEG-1 in MPEG-2
[64]. V spodnjih alinejah je povzetih nekaj kljucnih znacilnosti, ki MPEG-4 Visual locijo
od prejsnjih video kodirnih standardov [57]:
• Ucinkovitejse stiskanje za progresivni video in video s prepletanjem, ki je boljse od
standardov MPEG-1 in MPEG-2.
• Kodiranje video objektov (poljubnih oblik video scene), ki omogoca neodvisno kodi-
ranje objektov v ozadju in ospredju video scene.
• Podpira ucinkovit prenos preko omrezij. Orodja za zmanjsevanje obcutljivosti na
napake pomagajo dekodirniku obnoviti prenos, medtem ko orodja za prilagodljivo
kodiranje podpirajo fleksibilen prenos pri razlicnih bitnih hitrostih.
• Kodiranje animacijskih video objektov.
• Kodiranje za specialne aplikacije pri studijski kakovosti videa. Pri teh tipih aplikacij
je vizualna kakovost pomembnejsa od visokega stiskanja.
23
STISKANJE VIDEA
MPEG-4 Part 2 oziroma MPEG-4 Visual predstavlja slikovno informacijo v obliki naravnih
ali sinteticnih vizualnih objektov kot video sekvence pravokotnih ali arbitrarnih oblik [64].
Naravne oblike se nanasajo na video material iz resnicnega sveta, sinteticne pa na vizualne
objekte, ki so ustvarjeni s pomocjo racunalnika – npr. animacije [57]. Eden izmed kljucnih
napredkov standarda je ta, da obravnava video sekvenco kot kolekcijo enega ali vec video
objektov, ki so definirani v poglavju 3.1.1. Ta koncept je enoten za naravne oblike in
sinteticne oblike. Objekti pravokotnih oblik oziroma pravokotni VOP-ji se nanasajo na
okvirje video sekvence, brez informacije o obliki. Pri teh so osnovna orodja podobna tistim
pri predhodnih video-standardih. Arbitrarni objekti so definirani kot nepravilne oziroma
poljubne oblike objektov v sceni videa, pri katerih se izvaja globalna kompenzacija.
Proces globalne kompenzacije gibanja je definiran z B-VOP (dvosmereno) in P-VOP (eno-
smerno). Znotraj I-VOP ni nobene reference, ki se sklicuje na ostale VOP-je. Pri kodiranju
z MPEG-4 vsak objekt vsebuje ustrezno informacijo oblike, ki je lahko prikazana v binar-
nem formatu ali v formatu sivinske skale. V binarnem formatu ima lahko vsaka tocka eno
izmed dveh vrednosti – ali se nahaja znotraj video objekta ali ne. V formatu sivinske
skale lahko vsaka tocka predstavlja vec vrednosti, obicajno med 0 in 255, kjer se stevilke
sklicujejo na transparentnost slikovnih tock, ki dolocajo obliko objekta. Makrobloki so kla-
sificirani na standardne in konturne. Pri standardnih makroblokih so vse slikovne tocke
znotraj objekta, medtem ko so konturni makrobloki sestavljeni iz slikovnih tock znotraj
in zunaj objekta [4].
MPEG-4 Visual pod profile definira tip objekta, kar predstavlja kombinacijo orodij (ko-
dirne metode, kot je npr. B-VOP, kodiranje s prepletanjem itd.), ki so potrebna za dolocene
aplikacije [64]. Profil je torej nabor tipov objekta. Richardson v tabeli 3.5 prikazuje pro-
file v levem stolpcu in tipe objektov v zgornji vrstici. Tabela kaze, kateri tipi objektov so
vkljuceni v posamezne profile. Na primer kodek, ki je kompatibilen z enostavnim profilom
(ang. Simple profile), mora kodirati in dekodirati tipe objektov ”Simple”.
Izdelovalci kodeka izberejo profile, ki vsebujejo ustrezna orodja, skladna s cilji aplikacije.
24
STISKANJE VIDEA
Tabela 3.5: MPEG-4 Visual profili in objekti [57].
Npr. kodek, ki se implementira na sibkem procesorju, bi lahko uporabljal enostavni profil,
medtem ko bi bil za kodek pri spletnem pretocnem video prenosu ustreznejsi napredni
enostavni profil realnega casa (ang. Advanced Real Time Simple) [57]. Na spletni strani
MPEG so za pravokotne oblike predstavljeni naslednji profili [64]:
• Enostavni in enostavno prilagodljiv (ang. Simple and Simple scalable): Ne podpira
dvosmerne kompenzacije gibanja okvirjev tipa B. Ima pol-tockovno natancnost kom-
penzacije gibanja in orodja za zmanjsevanje obcutljivosti na napake. Enostavni profil
se uporablja v mobilnih omrezjih, kot sta UMTS in IMT2000. Njegova prilagodljiva
razsiritev je primerna za aplikacije, ki zagotavljajo storitve na vec kot enem nivoju
kakovosti zaradi omejitve bitne hitrosti ali orodja za dekodiranje, kot je npr. pro-
gramsko dekodiranje pri uporabi spleta.
• Napredni enostavni (Advanced simple): Nadgradnja enostavnega tipa objektov. Pod-
pira okvirje B in cetrt-tockovno natancnost kompenzacije gibanja in kodirna orodja
25
STISKANJE VIDEA
za video s prepletanjem.
• Enostavni studijski in osrednji studijski (ang. Simple Studio and Core Studio): Tip
objektov, ki je definiran specificno za visoko resolucijo in kakovost v aplikacijah
studijske produkcije.
• Napredni enostavni realnega casa (ang. Advanced Real-Time Simple): Zagotavlja do-
datno funkcionalnost za zmanjsevanje obcutljivosti na napake, kot je npr. kodirnik-
dekodirnik re-sinhronizacija v primeru napake prenosa, in redukcijo resolucije. Tip
je primeren za kodiranje v realnem casu, npr. pri telekonferencah.
• Enostavni prilagodljiv z odporom na napake (Error Resilient Simple Scalable): Nad-
gradnja tipa objektov enostavni prilagodljiv z orodjem za dodatno odpornost na
napake.
Kot je navedeno zgoraj, MPEG-4 opravlja tudi z objekti arbitrarne oblike. Na spletni
strani MPEG-4 so za arbitrarne oblike definirani naslednji profili [64]:
• Osrednji in osrednji prilagodljiv (ang. Core and Core Scalable): Nadgradnja tipa objek-
tov enostavni in enostavni prilagodljiv. Podpira arbitrarne video objekte z binarno
obliko, B-VOP-je in razlicne metode kvantizacije. Tipi objektov tega profila se upo-
rabljajo pri internetnih multimedijskih interaktivnih aplikacijah.
• Napredna kodirna ucinkovitost (ang. Advanced Coding Efficiency): Nadgradnja ti-
pov objekta napredni enostavni, ki omogoca arbitrarne oblike objektov. Primeren je
za sprejem mobilnega oddajanja, pridobitev slikovnih sekvenc (kamkorderji) in pri
drugih aplikacijah, kjer je zahtevana visoka kodirna ucinkovitost.
• Glavni (ang. Main): V glavnem profilu je lahko vsaka slikovna tocka pri objektih
oznacena z binarno – transparentna ali ne, medtem ko glavni profil omogoca, da
lahko vsaka slikovna tocka zavzema razlicne ravni transparentnosti [57].
26
STISKANJE VIDEA
3.2.5 H.264/AVC/MPEG-4 Part 10
Standard je bil odobren in objavljen leta 2003. Je produkt skupnega dela ISO-MPEG in
ITU-Video Coding Experts Group (VCEG). Omenjeni skupini sta s standardom stremeli
k povecanju ucinkovitosti stiskanja, podpori za specialne video aplikacije (npr. video
konference, spletne pretocne video prenose) in boljsi zanesljivosti. H.264 lahko pri do
50 % manjsi bitni hitrosti stisne primerljivo kakovost videa kot MPEG-2 [58].
Podpira video s prepletanjem in progresivni video. Vsaka slika je razdeljena na makrobloke
velikosti 16 x 16, pri cemer je lahko vsak blok razdeljen na manjse bloke [74]. Kompenzacija
gibanja uporablja spremenljive velikosti blokov 16 x 16, 16 x 8, 8 x 16, 8 x 8, 8 x 4, 4 x 8
ali 4 x 4, pri cemer je vektor gibanja kodiran hierarhicno, zacensi na nivoju 16 x 16.
Kompenzacija gibanja je natancna na cetrtino slikovne tocke. Oblika transformacije je
celo stevilo, ki temelji na DCT. S tem ni odvisnosti od izvedbe plavajoce vejice, zato ni
odklona oziroma napake med kodirnikom in dekodirnikom [65].
Standard lahko pri kompenzaciji gibanja uporablja enega ali vec referencnih okvirjev. To
omogoca kodirniku, da najde najustreznejse ujemanje iz sirsega nabora okvirjev. Vsak
makroblok okvirja B je kodiran na podlagi predhodno ali prihodno kodiranih blokov iz
referencnih okvirjev [57].
Kot smo opisali pri MPEG-1, tudi tukaj rezina sestavlja doloceno stevilo makroblokov.
H.264 vkljucuje dva nova tipa rezin – SP in SI, ki sta vkljucena v razsirjen profil standarda.
Rezine SP in SI med drugim omogocajo ucinkovito preklapljanje med video pretoki in
nakljucen dostop za video dekodirnike. Pogosta zahteva pri aplikacijah pretocnih prenosov
je moznost dekoderjev, da preklapljajo med kodirnimi pretoki. Video material na spletu
je na primer kodiran z razlicnimi bitnimi hitrostmi in dekodirnik lahko dekodira spletni
pretocni video prenos z najvecjo mozno bitno hitrostjo, ki jo lahko sprejme. Rezine SP
podpirajo preklapljanje med podobnimi kodirnimi sekvencami (npr. sekvenca iz istega
vira, ki je kodirana z razlicnimi bitnimi hitrostmi). Tip rezine SI se lahko uporablja za
preklapljanje iz ene sekvence na popolnoma drugo. V tem primeru se uporablja nacin
27
STISKANJE VIDEA
stiskanja znotraj okvirja, saj kompenzacija gibanja ni smiselna, ker ni korelacije med
sekvencama [57].
Kodiranje pri H.264 je sestavljeno iz glavne poti in rekonstrukcijske poti (slika 3.12).
Glavna pot je predstavljena pri osnovah stiskanja. Novost pri standardu je rekonstrukcijska
pot, ki poteka od desne proti levi (slika 3.12). Njen namen je obnoviti okvir za kodiranje
naslednjih makroblokov. Glavni korak v tej poti je dekodiranje kvantiziranih koeficientov
X, ki so obnovljeni (ang. rescaled) v kvadratku Q – 1 in inverzno transformirani v T –
1, rezultat pa je v makrobloku razlike D′n. Ta makroblok se razlikuje od originalnega
makrobloka Dn, saj so se pri kvantizaciji izgubili podatki, zato lahko gledamo D′n kot
slabso razlicico Dn. V naslednjem koraku rekonstrukcijske poti se ujemajoci makroblok
referencnega okvirja 3 doda D′n, s cimer ustvari obnovljen makroblok uF ′
n, ki velja za
popaceno verzijo originalnega makrobloka. Na koncu je serijam makroblokov uF ′n dodan
se filter, ki mehca ucinke blokov, kar ustvari rekonstrukcijski in referencni okvir F ′n, ki
sluzi kot referenca za kodiranje naslednjih blokov [58].
Slika 3.12: H.264 kodiranje [58].
Pred rekonstrukcijo se torej za vsak makroblok uporablja filter, ki reducira popacenje
3Ujemajoci makroblok referencnega okvirja je na sliki 3.12 oznacen kot P (ang. predictor).
28
STISKANJE VIDEA
blokov in je prisoten pri kodiranju ter dekodiranju (slika 3.13). Filter, ki se imenuje tudi
kot filter zanke, gladi robove blokov in izboljsuje videz kodiranih okvirjev. Filtrirana slika
se uporablja za kompenzacijo gibanja pri prihodnjih okvirjih in lahko izboljsa stiskanje,
saj je filtrirana slika pogosto natancnejsa reprodukcija originalnega okvirja kot nefiltrirana
slika [57].
Slika 3.13: Filter, ki reducira popacenje blokov [57].
Novost je tudi, da H.264 loci med dvema razlicnima kodirnima mehanizmoma, prvi se
imenuje kontekstno-prilagodljivo kodiranje spremenljive dolzine oziroma CAVLC (ang.
context-adaptive variable-length coding), drugi pa kontekstno-prilagodljivo binarno arit-
meticno kodiranje oziroma CABAC (ang. context-adaptive binary arithmetic Coding)
[65]. Mehanizma spadata pod tako imenovano entropijsko kodiranje, za katero sta znacilna
grupiranje ne-nicelnih koeficientov in ucinkovita reprezentacija nicelnih koeficientov. Ta
proces se pojavi po transformaciji DCT. Kodirnik pretvori serijo elementov video sekvence
v bitni tok, ki je primeren za prenos in stiskanje. Vhodni elementi lahko vkljucujejo kvan-
tizirane transformirane koeficiente, vektorje gibanja in druge elemente, ki so nato kodirani
z uporabo CAVLC ali CABAC. Po napovedi, transformaciji in kvantizaciji bloki v vecini
vsebujejo nicle. Z uporabo mehanizma CAVLC je niz nicel bolj kompakten. Visoko fre-
kvencni ne-nicelni koeficienti so pogosto +/– 1, pri katerih CAVLC na kompakten nacin
signalizira stevilo le-teh. Na drugi strani CABAC uporablja binarno aritmeticno kodira-
nje, kar pomeni, da so kodirane samo binarne odlocitve (1 ali 0). Ne-binarne vrednosti so
pretvorjene v binarno kodo [57] [58].
29
STISKANJE VIDEA
MPEG-4 Part 10 definira dodatne mehanizme za zmanjsevanje obcutljivosti na napake, kot
je na primer fleksibilno razvrscanje makroblokov oziroma FMO (ang. flexible macroblock
ordering) in arbitrarno razvrscanje rezin oziroma ASO (ang. arbitrary slice ordering).
Definirana je skupina rezin, ki lahko vsebuje eno ali vec rezin. Z uporabo FMO ni vec
zahtevano, da rezine vsebujejo sosednje makrobloke. Vsak makroblok je lahko dodeljen
doloceni skupini rezin z uporabo lokatorja makrobloka. Omogoceno je torej konstruiranje
razlicnih skupin rezin na nacin, da makrobloki niso oblegani z ostalimi makrobloki iz enake
skupine rezine (slika 3.14). V primeru, da se rezina med prenosom izgubi, je rekonstrukcija
manjkajocega bloka lazja, saj se lahko vzamejo informacije iz ostalih makroblokov [10].
ASO pomeni, da se lahko rezine dekodirajo v katerem koli vrstnem redu. Poleg omenjenih
mehanizmov je pri zmanjsevanju obcutljivosti na napake pomembna se moznost dvojnega
oziroma ponovnega prenosa pomembnih informacij [65] [57].
Slika 3.14: Primera FMO. 0, 1, 2 in 3 so skupine rezin [57].
Zgoraj omenjene tehnike omogocajo izboljsanje ucinkovitosti stiskanja v primerjavi s pred-
hodnimi standardi. Kljucna izboljsava je na podrocju kompenzacije gibanja, vendar v
ustrezni kombinaciji z ostalimi elementi. Filter zagotavlja pomembno prednost pri ka-
kovosti nizke bitne hitrosti. Pri ucinkovitosti stiskanja sta pomembna tudi mehanizma
CABAC in CAVLC ter razlicne moznosti za izbiro nacina stiskanja, kot sta stevilo refe-
rencnih okvirjev in velikost blokov, ki v primeru optimalnih odlocitev dodatno izboljsajo
stiskanje. Kombinacija vseh zgoraj navedenih metod vodi do redukcije bitne hitrosti 50 %
ali vec pri enaki ravni kakovosti v primerjavi s predhodnimi standardi [65].
30
STISKANJE VIDEA
Koncept profilov in nivojev je definiran tudi pri implementaciji tega standarda. Po spletni
strani [65] je povzetih nekaj osnovnih znacilnosti posameznega profila:
• Osnovni profil (ang. baseline): Profil je omejen na uporabo okvirjev I in P. Podpira
CAVLC, medtem ko ne podpira videa s prepletanjem in mehanizma CABAC.
• Razsirjen profil: Tudi ta profil ne podpira CABAC, vendar vsebuje vsa orodja za
odpornost na napake. Vkljucuje tipe rezin SP in SI, zato je primeren za spletne
pretocne video prenose.
• Glavni profil: Primeren je za TV oddajanje in shranjevanje videa. Podpira okvirje I,
P in B, video s prepletanjem in CABAC [57]. Ne vkljucuje arbitrarnega razvrscanja
in skupine rezin, vendar omogoca pomembne lastnosti pri odpravljanju napak, kot
sta re-sinhronizacija in omejitev kodiranja znotraj okvirja.
• Visoki profil: Je razsirjen glavni profil, ki podpira transformacijo v obliki celega
stevila pri velikosti blokov 8 x 8 z moznostjo preklopa. Podpira tudi nacin kodiranja
s filtriranjem in nivoje, prilagojene tako, da se bolje ujemajo s formatom HD. Iz tega
profila izhajata se razsirjena profila visoki 4:2:2 in visoki 4:4:4, ki omogocata format
vzorcenja 4:2:2 in 4:4:4.
Definiranih je pet glavnih nivojev in skupno 15, vkljucno s pod-nivoji. Omejitve nivo-
jev so vezane na maksimalno stevilo makroblokov na sekundo ali okvir, bitno hitrost in
locljivost [65].
ITU-T VCEG in ISO/IEC so razsirili H.264 z definiranjem prilagodljivega video kodiranja
SVC (ang. scalable video coding) [58]. Ta nacin je uporaben pri aplikacijah, v katerih
mora biti video dekodiran in prikazan v razlicnih resolucijah ter kakovostnih nivojih [4].
Prilagodljivo video stiskanje sicer ni prvic predstavil SVC, temvec so nekatere tehnike
ze vkljucevali standardi, kot so MPEG-2, H.263 in MPEG-4 Visual. Namen tehnologije
je specificirati stisnjen bitni pretok, ki podpira casovno, prostorsko in kakovostno prila-
godljivo kodiranje videa. Pri tem je bitni pretok vecslojni, kar pomeni, da se ustvari
31
STISKANJE VIDEA
podskupina bitnega pretoka nizje kakovosti [58]. Prilagodljiv podatkovni pretok se raz-
deli na bazni nivo in na enega ali vec izboljsanih nivojev. Prostorska prilagodljivost se
nanasa na moznost predstavitve videa v razlicnih prostorskih resolucijah okvirja. Casovna
prilagodljivost omogoca reprezentacijo videa v razlicnem stevilu okvirjev. Kakovostno pri-
lagajanje oziroma SNR se uporablja za predstavitev videa v razlicnih kakovostnih nivojih
z razlicnimi parametri DCT kvantizacije [39].
3.2.6 H.265/HEVC/MPEG-H Part 2
H.265 oziroma HEVC (ang. High Efficiency Video Coding standard) ali MPEG-H Part
2 je bil standardiziran v letu 2013. Podpira resolucijo ultra HD do 8K (7680 x 4320)
s stevilom okvirjev do 120 na sekundo [69]. Kljub temu, da so rezultati ucinkovitosti
stiskanja odvisni od tipa vsebine in nastavitev kodiranja, je HEVC ucinkovitejsi od AVC-
ja. Koncni uporabniki izboljsano stiskanje vrednotijo na dva nacina [49]: (1) HEVC pri
enakem nivoju kakovosti omogoca stiskanje videa v datoteko, ki zavzema polovico manj
pomnilniskega prostora oziroma ima za polovico manjso bitno hitrost, kot pri stiskanju s
standardom AVC; (2) HEVC pri enaki bitni hitrosti doseze bistveno boljso vizualno kako-
vost kot AVC. Sullivian in Ohm [61] navajata, da HEVC ne podpira videa s prepletanjem,
saj se ta nacin pri distribuciji vse manj uporablja.
Prvi razlog ucinkovitega stiskanja standarda je velikost blokov. H.265 vsebuje spremen-
ljivo velikost blokov, ki zagotavlja vec fleksibilnosti pri prilagajanju vsebini. Na obmocjih
z vec podrobnostmi se uporabijo manjse velikosti, medtem ko se lahko za obmocja z manj
podrobnostmi (npr. nebo) uporabijo vecji bloki [70]. Medtem ko H.264 uporablja spre-
menljive velikosti blokov 16 x 16, lahko ena enota pri H.265 vsebuje do 64 x 64 slikovnih
tock, kar je zelo pomembno pri vecjih resolucijah. Struktura blokov je prenovljena, kar se
kaze v razlikovanju med definicijo bloka in enote. Ce se element imenuje enota, to pomeni
kodirno logicno enoto, ki je kodirana v HEVC-ju, medtem ko se blok sklicuje na del video
okvirja, nad katerim se bo izvajal proces. Makroblok je pri standardu HEVC preimeno-
32
STISKANJE VIDEA
van v enoto kodirnega drevesa (CTU), katerega velikost je lahko vecja od tradicionalnega
makrobloka. CTU je sestavljen iz enega bloka kodirnega drevesa (CTB) komponente sve-
tilnosti, dveh CTB-jev barvnosti in sintakticnih elementov (slika 3.15). Velikost CTB-ja
komponente svetilnosti je lahko 16 x 16, 32 x 32, ali 64 x 64 slikovnih tock, pri cemer vecji
vzorci omogocajo boljse stiskanje [61, 49].
Slika 3.15: CTU in CTB [59].
HEVC podpira delitev CTB-jev v manjse kodirne bloke (CB) do velikosti 4 x 4 (slika
3.16). Sintaksa CTU doloca velikost in pozicijo CB svetilnosti in barvnosti, pri cemer je
velikost CTB najvecja podprta velikost za CB. En CB svetilnosti in obicajno dva CB-ja
barvnosti s sintakso tvorijo tako imenovano kodirno enoto (CU) (slika 3.17). Ta doloca
nacin kodiranja, ki je lahko med okvirji ali znotraj okvirja [61].
Na sliki 3.18 je prikazano, da se lahko vsak CB deli na bloke predvidevanja (PB), ki se
lahko pojavijo v razlicnih vzorcih. Po predvidevanju so CB-ji razdeljeni na vec blokov
transformacije (TB) (slika 3.18) [61].
Novost je napredno predvidevanje vektorja gibanja (AMVP), ki uposteva najustreznejse
kandidate vektorjev gibanja sosednjega PB-ja in referencnega okvirja. Uporabljen je lahko
tudi zdruzitveni nacin, ki omogoca dedovanje vektorjev gibanja znotraj okvirja ali med
okvirji. Kompenzacija gibanja je natancna na cetrtino slikovne tocke. Podobno kot pri
H.264, se tudi tukaj uporabljajo vec referencni okvirji z enosmernim ali dvosmernim
33
STISKANJE VIDEA
Slika 3.16: Primer delitve CTB na CB [59].
Slika 3.17: Struktura CU [59].
Slika 3.18: Delitev CB na PB in TB [59].
34
STISKANJE VIDEA
nacinom kodiranja [61]. Pomembna razlika je pri kodiranju znotraj okvirja, saj HEVC
podpira 35 smeri oziroma nacinov predvidevanja, medtem ko jih AVC samo 10. Slabost
je, da ta fleksibilnost razsiri iskalni prostor za notranje nacine predvidevanja, kar dodatno
obremeni racunanje in poveca cas kodiranja [70]. Izboljsana sta tudi rekonstrukcija origi-
nalnega signala in mehanizem CABAC, ki je hitrejsi kot pri AVC-ju. [61]. Tudi pri H.265
se uporablja filter, ki gladi robove blokov. V primerjavi s H.264, se filter pri H.265 loceno
izvaja nad vecjo velikostjo blokov, kar omogoca paralelno procesiranje [70].
Standard je kompleksnejsi od njegovih predhodnikov, zato so razvijalci zeleli minimali-
zirati obremenitev racunanja tako, da so upostevali moznost procesiranja na sodobnih
vec-jedrnih racunalniskih procesorjih. Za dosego tega cilja so se razvijalci osredotocili na
odstranjevanje medsebojnih odvisnosti med nekaterimi operacijami procesiranja. H.265
tako uporablja tehniko vzporednega kodiranja WWP (ang. wavefront parallel processing),
ki temelji na tako imenovanih ploscicah. V tem nacinu je okvir razdeljen v pravokotne
ploscice, ki so lahko neodvisno procesirane [70]. Vsaka ploscica vsebuje priblizno enako
stevilo CTU-jev [61].
Prva razlicica standarda je vkljucevala zgolj tri profile: glavni, glavni 10 in glavni s staticno
sliko (ang. Main still picture). Minimaliziranje stevila profilov namrec poveca medsebojno
operativnost med napravami in konvergenco. Pri omenjenih profilih je podprto samo 4:2:0
vzorcenje. V glavnem in glavnem s staticno sliko je podprtih 8 bitov na slikovno tocko,
medtem ko glavni 10 podpira 10 bitov. V glavnem profilu s staticno sliko lahko video
vsebuje samo eno kodirano sliko, zato kodiranje med okvirji ni podprto. Tudi HEVC
vsebuje nivoje, ki omejujejo maksimalno velikost slike, bitno hitrost in druge parametre
(tabela 3.6). Zaradi nekaterih aplikacij, ki zahtevajo razliko samo pri bitni hitrosti in
kapacitetah CPB, sta definirani dve stopnji – glavna stopnja (ang. main) za vecino aplikacij
in visoka stopnja (ang. high) za uporabo najzahtevnejsih aplikacij [61].
35
STISKANJE VIDEA
Tabela 3.6: Nivoji H.265 z omejitvami [61].
3.2.7 Raziskovalni model JEM
V letu 2015 je bila ustanovljena zdruzena ekipa video raziskovanja oziroma JVET (ang.
Joint Video Exploration Team), ki jo sestavljata VCEG in ISO/IEC MPEG [25]. Organiza-
cija raziskuje potencialne potrebe prihodnosti po video kodirnih standardih z zmogljivostjo
stiskanja, ki bistveno presega trenutni HEVC oziroma H.265. Raziskovalci so izdelali vec
razlicic raziskovalnega testnega kodirnega modela – JEM (ang. Joint Exploration Model).
V dokumentu seste verzije [42] lahko zasledimo novosti, ki jih prinasa tovrstni model.
Nekaj je izpostavljenih v spodnjih alinejah:
• Strukture blokov so vecje in fleksibilnejse; najvecje enote so tako imenovana stirikratna-
binarna drevesa – QTBT (ang. quadtree plus binary tree), ki lahko zavzemajo veli-
kosti do 128 x 128 slikovnih tock, kar je koristno pri visjih resolucijah.
• Pri kodiranju znotraj okvirja je 67 smeri oziroma nacinov predvidevanja.
• Kodiranje je natancno na 1/16 slikovne tocke, kar pomeni, da je v primerjavi s H.265
pri kodiranju med okvirji uporabljena natancnejsa kompenzacija.
36
STISKANJE VIDEA
• Izboljsano entropijsko kodiranje CABAC.
Pomembno je izpostaviti, da so bile zgornje tehnike uporabljene v eksperimentih v namen
raziskave potencialnih tehnologij. Osnovne kodiranja standarda HEVC ostajajo s strani
JEM nespremenjene [42].
3.3 Faktor stiskanja
Salomon in Motta [58] izpostavljata meritve, ki izrazajo izvedbo metode stiskanja. Med
njimi definirata razmerje stiskanja, ki predstavlja kolicnik med izhodno bitno hitrostjo
(stisnjen video) in vhodno bitno hitrostjo (ne stisnjen video):
Razmerje stiskanja = izhodna bitna hitrostvhodna bitna hitrost (3.1)
Vrednost 0,6 pomeni, da po stiskanju bitna hitrost stisnjene oblike zavzema 60 % bitne
hitrosti originalne oziroma ne stisnjene oblike. Avtorja inverzijo razmerja stiskanja poime-
nujeta kot faktor stiskanja, ki predstavlja kolicnik med vhodno bitno hitrostjo in izhodno
bitno hitrostjo, torej ravno obratno.
Faktor stiskanja = vhodna bitna hitrostizhodna bitna hitrost (3.2)
V tem primeru vrednosti, vecje od 1, predstavljajo stiskanje, kar je za ljudi zelo naravno
sprejemljivo, saj vecji faktor pomeni boljse stiskanje [58]. Faktor stiskanja je v literaturi
lahko poimenovan tudi kot razmerje stiskanja. Koncept je enak, razlika je le v imenu
definicije.
3.4 Video datotecni formati
Kodirani in stisnjeni podatki se hranijo v video datotecnih formatih oziroma formatih
vsebnika (ang. container). Slednji zdruzujejo avdio, video, metapodatke, podnapise, in-
37
STISKANJE VIDEA
formacije o kodeku in druge informacije v paket za predvajanje [9]. Obicajno podpirajo
shranjevanje videa, ki je stisnjen z razlicnimi kodeki. Danes obstaja veliko formatov ozi-
roma struktur, ki se uporabljajo za shranjevanje videa, njihova izbira pa je odvisna od
namena distribucije [3]. V spodnjih alinejah je na kratko opisanih nekaj tovrstnih forma-
tov:
• AVI: Format je leta 1992 prvic predstavilo podjetje Microsoft. Omogoca shranjevanje
video in avdio podatkov, ki so lahko kodirani z razlicnimi kodeki. Obicajno se
uporablja za shranjevanje manj stisnjenega videa [18].
• MOV: Je multimedijski format vsebnika, ki ga je razvilo podjetje Apple. Lahko
vsebuje vec sledi, kot so avdio, video, casovnik in besedilo, ki hranijo razlicne tipe
medijskih podatkov. V formatu se obicajno hranijo podatki, ki so stisnjeni z MPEG-
4 [20].
• MP4: MOV in MP4 sta podobna formata, vendar je MP4 mednarodno sprejet s
sirso podporo aplikacij [20]. Vkljucuje loceno stiskanje za avdio in video sledi, pri
cemer je video obicajno stisnjen s standardi MPEG. Med drugim se uporablja tudi
za spletne pretocne video prenose [21] in deljenje videoposnetkov prek spleta [7].
• MKV: Podoben je formatoma .AVI in .MOV. Podpira razlicno vrsto kodirnih stan-
dardov in lahko vkljucuje univerzalne formate podnapisov [19]. Je prosto dostopen
in odprtokodnen, zato ga podpira veliko razlicnih aplikacij [46].
Nekatere kamere omogocajo snemanje tako imenovanih surovih videoposnetkov, kar po-
meni, da omogocajo zajem ne stisnjenih oziroma minimalno procesiranih surovih podatkov
iz slikovnega senzorja. V vecini primerov so surove video datoteke v post produkciji pre-
tvorjene v stisnjen format [36]. Primera surovih ne stisnjenih video formatov sta YUV in
Y4M, ki se uporabljata kot formata pred stiskanjem. Hranita sekvenco okvirjev kompo-
nent Y, CB in CR in sta lahko shranjena z vzorcenjem 4:4:4, 4:2:2 in 4:2:0 [23] [24].
38
OBJEKTIVNA VIZUALNA KAKOVOST
4 OBJEKTIVNA VIZUALNA KAKOVOST
Vizualna kakovost slike je lahko subjektivna ali objektivna. Pri subjektivnem ocenjevanju
opazovalci vrednotijo vizualno sceno, pri cemer lahko na gledalcevo mnenje o kakovosti
vplivajo razlicni dejavniki, kot so npr. okolje, razpolozenje in stopnja do katere je gledalec
v interakciji z vizualno sceno [57]. Ker je subjektivna kakovost odvisna od posameznika, se
za primerjavo uveljavljajo kvantitativna oziroma objektivna merila kakovosti [50]. Objek-
tivne meritve merijo fizicne karakteristike video signala, pri cemer je najvecja prednost
ponovljivost raziskave [67]. Yusra in Soong [75] delita meritve objektivne kakovosti na tri
razlicne kategorije: polno referencne, reducirano referencne in ne referencne. To poglavje
je osredotoceno na kategorijo polno referencnih meritev. Objektivne meritvene algoritme
uporabljajo tudi razvijalci video kodirnih standardov. Najpogosteje uporabljena meritev
je tako imenovano maksimalno razmerje signal-sum oziroma PSNR, vendar se je zacel ra-
zvoj meritev, ki so blizje cloveskemu opazovalcu. Po navedbah avtorjev studij [75, 37, 57]
sta PSNR in SSIM najpogosteje uporabljeni meritvi objektivne vizualne kakovosti.
4.1 PSNR
Vrednost PSNR je lahko hitro izracunana in je zato zelo priljubljena meritev vizualne kako-
vosti, ki je pogosto uporabljena pri primerjavi med originalnim in stisnjenim video okvirjem
[57]. Izraz �peak signal to noise ratio� (PSNR) oziroma maksimalno razmerje signal-sum
se nanasa na razmerje med maksimalno mozno vrednostjo signala in povprecjem kvadra-
tne napake (MSE) med originalno in oslabljeno (stisnjeno) sliko [50, 57]. PSNR je zaradi
39
OBJEKTIVNA VIZUALNA KAKOVOST
uporabe logaritma izrazen v decibelih. Vecja PSNR vrednost pomeni boljso podobnost
med originalno sliko in rekonstrukcijo slike [58] ter s tem tudi boljso kakovost, medtem ko
manjsa vrednost implicira veliko numericno razliko med dvema slikama [37].
PSNR = 20 ∗ log10(2n−1√MSE
) (4.1)
Enacba (4.1) prikazuje izracun vrednosti PSNR. 2n−1 je maksimalna vrednost signala, pri
kateri n predstavlja stevilo bitov na slikovno tocko [57]. MSE omogoca primerjavo med
vrednostjo slikovnih tock v originalni in degradirani sliki. Izracuna se po formuli (4.2)
[50].
MSE = 1mn
m−1∑0
n−1∑0
[f(i, j)− g(i, j)]2 (4.2)
f – matrika podatkov originalne slike,
g – matrika podatkov degradirane slike,
m – stevilo vrstic slikovnih tock (i – indeks te vrstice),
n – stevilo stolpcev slikovnih tock (j – indeks tega stolpca).
Pri barvnih slikah je vrednost MSE izracunana za vsak kanal posebej, nato pa je vzeto
povprecje vseh kanalov. Druga moznost je, da se izvede izracun PSNR pretvorjenega ka-
nala svetilnosti (ang. luminance channel), saj so oci na splosno stirikrat bolj obcutljive na
spremembe svetilnosti kot na spremembe barvnosti (ang. chrominance). Izbira vrednosti
je odvisna od raziskovalca [50].
Vrednost PSNR je nedefinirana, ko MSE zavzema stevilo 0 [37]. To se zgodi, ko primer-
jamo dve enaki sliki – PSNR je nedefiniran oziroma deljen z 0 [50]. Salomon in Motta
[58] izpostavljata, da vrednost nima absolutnega pomena. Ni namrec smiselno trditi, da
25 dB pomeni dobro kakovost, kvecjemu se vrednosti uporabljajo samo za primerjavo med
razlicnimi metodami stiskanja. Kot primer izpostavita komite MPEG, ki uporablja nefor-
malen prag vrednosti 0,5 dB za presojo vkljucitve kodirne optimizacije s prepricanjem, da
40
OBJEKTIVNA VIZUALNA KAKOVOST
izboljsavo tega obsega zazna tudi oko. Dodajata se, da PSNR obicajno zavzema vrednosti
med 20 dB in 40 dB.
Najvecja omejitev te meritve je, da se striktno drzi numericne predstavitve in ne uposteva
cloveskega faktorja, kot npr. indeks strukturne podobnosti (SSIM) (ang. structural si-
milarity index) [50]. Clovek namrec vizualno zaznava na osnovi struktur in ne na osnovi
slikovnih tock [44].
4.2 SSIM
SSIM je meritev, ki meri podobnost med dvema slikama v smislu, da je bolj konsistentna
s clovesko percepcijo kot tradicionalne tehnike (PSNR, MSE). Primer je zamegljena slika
(ang. blurred), ki jo clovesko oko sprejema kot slabo kakovostno, kar je konsistentno z
merilom SSIM, medtem ko je po meritvi MSE zamegljena slika podobna originalni [51].
Zaradi korelacije s clovesko percepcijo se je SSIM zacel uveljavljati tudi v slikovnih in
video analizah stiskanja.
SSIM temelji na nacelu, da cloveski vizualni sistem uposteva strukturne informacije vi-
zualne scene. Pri tem je potrebno lociti med strukturno in ne-strukturno spremembo.
Ne-strukturne spremembe, kot je npr. rahla sprememba svetlosti, ne spremenijo struk-
ture objektov vizualne scene, medtem ko druge spremembe (npr. zameglitev, stiskanje z
izgubo) lahko vplivajo na strukture objektov. Slika 4.1 prikazuje dva primera strukturne
spremembe [72].
Metoda SSIM se torej od PSNR razlikuje v tem, da uporablja merjenje strukturne podob-
nosti namesto napake, saj to daje boljso korelacijo s subjektivnim vtisom oziroma clovesko
percepcijo [67]. Zhou in Bovik [72] prikazujeta razlicne degradacije originalne fotografije s
pripisano vrednostjo MSE in SSIM. S tem zelita izpostaviti neskladje omenjenih meritev
pri ocenjevanju objektivne vizualne kakovosti. Pri degradaciji fotografij se vrednosti spre-
minjata, s tem da je lahko npr. pri zamegljenih slikah razlika v vrednosti MSE manjsa
kot pri vrednosti SSIM. Nekatere vrednosti MSE degradiranih slik so torej skoraj enake,
41
OBJEKTIVNA VIZUALNA KAKOVOST
Slika 4.1: Originalna fotografija, zamegljena fotografija, stisnjena fotografija [72].
kljub temu, da je vizualna percepcija ocitno drugacna. Slika (slika 4.2) prikazuje tovr-
stni primer dveh degradiranih fotografij, ki imata skoraj enako MSE, medtem ko je SSIM
bistveno drugacna.
Slika 4.2: Primer meritve SSIM in MSE [51]
Enacba 4.3 prikazuje izracun indeksa SSIM. Slednji meri podobnost treh razlicnih elemen-
tov — podobnost svetilnosti (l), podobnost kontrasta (c) in strukturno primerjavo (s).
Parametra (x ) in (y) se sklicujeta na sliko x in y [72]. Enacba v tem delu ni izpeljana do
konca, saj je cilj raziskave osredotocen na opredelitev koncepta meritve in ne na postopek
42
OBJEKTIVNA VIZUALNA KAKOVOST
racunanja.
SSIM (x,y) = l(x,y)c(x,y)s(x,y) (4.3)
Rezultat SSIM je v intervalu (0,1), kjer 0 zavzema najslabso in 1 najboljso kakovost.
Indeks je enak 1, ce primerjamo dve enaki fotografiji [67].
4.3 Izbira meritev
Hore in Zious [37] omenjata, da ni splosno sprejetega pravila za izbiro merjenja SSIM
ali PSNR ter da studije razkrivajo prednosti in slabosti obeh metod. MSE in s tem
PSNR slabo ocenjujeta strukturno vsebino slik, saj ima lahko slika kljub degradaciji enako
vrednost MSE [72]. Druge studije kazejo, da se MSE in posledicno PSNR najbolje izvaja
za ocenjevanje kakovosti slik s sumom [1] in da je najpogosteje uporabljen pri ocenjevanju
slike razlicnih metod stiskanja [57]. Ta raziskava je osredotocena na obe meritvi, saj
izhaja iz spoznanja, da se je vsaj ena izmed meritev uporabila v raziskavah in clankih, ki
primerjajo kakovost video-standardov: [73, 76, 67, 52, 29].
43
EMPIRICNA RAZISKAVA
5 EMPIRICNA RAZISKAVA
V tem poglavju je opisana empiricna raziskava oziroma eksperiment primerjave ucinkovitosti
stirih video-standardov: MPEG-2, MPEG-4 Visual, H.264 in H.265. Cilj eksperimenta je
bila raziskava ucinkovitosti omenjenih standardov glede na faktor stiskanja. Poglavje vse-
buje opis metodologije za izvedbo raziskave, videov eksperimenta in programsko opremo,
ki je bila uporabljena. Opis rezultatov eksperimenta je v podpoglavju 5.4.
5.1 Metodologija
Raziskava je omejena na resolucijo HD (1920 x 1080) in objektivno vizualno kakovost.
Preprost nacin za implementacijo meritev kakovosti videa je uporaba meritev kakovosti
posameznega video okvirja in izracun povprecja vseh okvirjev. Vrednosti SSIM in PSNR
je tako mogoce izracunati z uporabo orodij, kot je Moscow State University video quality
measurement tool [72]. Zaradi stroskov omenjene programske opreme je bilo za izracun
vrednosti kakovosti videa uporabljeno prosto dostopno orodje FFmpeg. Program med
drugim podpira primerjavo dveh videoposnetkov z izracunom vrednosti PSNR in SSIM.
Rezultat izracuna je podan za vsak okvir posebej in za povprecje vseh okvirjev. V eks-
perimentu je bila uporabljena povprecna vrednost vseh okvirjev. Cilj eksperimenta je bil
doseci priblizno enake vrednosti PSNR in SSIM pri stiskanju z razlicnimi standardi. V
ta namen je bilo potrebno prilagajanje povprecne bitne hitrosti, ostale kodirne nastavitve
pa so bile nespremenjene (podrobneje opisano v podpoglavju 5.3). Za stiskanje videa je
bil uporabljen prosto dostopni program Handbrake. Stiskanje vsakega videa se je zacelo
44
EMPIRICNA RAZISKAVA
s standardom H.264, pri katerem je bila izmerjena objektivna vizualna kakovost stisnje-
nega videa. Sledilo je stiskanje z ostalimi standardi, s prilagajanjem bitne hitrosti tako
dolgo, da je bila objektivna vizualna kakovost na izbrano decimalno mesto enaka prvemu.
Postopek je bil ponovljen pri vseh izbranih video-standardih.
Pri stiskanju z razlicnimi standardi ni bilo mogoce doseci absolutnega izenacenja objek-
tivne kakovosti, zato je bilo treba teziti k optimalnemu izenacenju. V ta namen se je
vrednost PSNR pri ocenjevanju kakovosti zaokrozevala na eno decimalno mesto, pri tem
pa kakovost pri kodiranju z razlicnimi standardi ni smela odstopati za vec kot eno dese-
tinko. Taka natancnost je primerna, saj Salomon in Motta [58] navajata, da komite MPEG
pri vrednosti uporablja neformalen prag 0,5 dB za presojo vkljucitve kodirne optimizacije
s prepricanjem, da izboljsavo tega zazna tudi oko. Hkrati se je merila tudi vrednost SSIM,
zaokrozena na dve decimalni mesti z maksimalnim odstopanjem ene stotinke.
Priporocilo EBU R132 [12] navaja, da naj bitna hitrost pri formatih HD studijskih arhi-
vov, ki temeljijo na GOP in MPEG-2, ne bi bila manjsa od 50 Mbit/s. V eksperimentu
je bila upostevana manjsa bitna hitrost, saj je namen raziskave prilagoditi hitrost opti-
malni kakovosti za spletna mesta. V ta namen so bila raziskana priporocila spletnih mest
Youtube, Vimeo in Facebook [27, 71, 13], ki so prikazana v tabeli 5.1.
Tabela 5.1: Tehnicna priporocila spletnih mest [27, 71, 13]
Priporocila za HD Youtube Vimeo FacebookFormat vsebnika mp4 / mp4
Standard H.264 H.264 H.264Profil Visoki Visoki Visoki
Stevilo okvirjev 24–30 23,98–60 maks. 30Bitna hitrost 8 Mps 10–20 Mbps 8 Mbps
Progresivno / s prepletanjem Progresivno Progresivno Progresivno
V skladu z zbranimi informacijami so tudi v eksperimentu upostevane manjse bitne hi-
trosti. Vsak originalen video je bil prvic kodiran s standardom H.264 pri povprecni bitni
hitrosti 8 Mbit/s do 30 fps in formatom mp4. Pri tem je izmerjena objektivna kakovost,
45
EMPIRICNA RAZISKAVA
ki sluzi kot skupni imenovalec, h kateremu se je stremelo tudi pri kodiranju z ostalimi
standardi.
5.2 Izbira videoposnetkov
V eksperiment je vkljucenih sedem videoposnetkov oziroma videov, saj rezultati predhodne
raziskave kazejo, da je kakovost stiskanja odvisna tudi od vsebine, ki jo kaze posnetek [67].
V namen ponovljivosti raziskave so bili uporabljeni testni videoposnetki, ki so prosto
dostopni na spletnem mestu Ultra Video Group [68]. Ta stran omogoca prenos videov v
razlicnih formatih. Za eksperiment so bili preneseni videi ne stisnjenega formata Y4M, ki
so sluzili kot referenca pri merjenju objektivne vizualne kakovosti. Vsi posnetki so bili v
progresivnem nacinu z vzorcenjem 4:2:0, povprecno bitno hitrostjo 746497 kbit/s oziroma
746,497 Mbit/s, resolucijo 1920 x 1080 in stevilom okvirjev 30 fps4. Cas predvajanja
videov, z izjemo cetrtega, traja 20 sekund, kar sicer nima bistvenega pomena, saj se je pri
rezultatih upostevala povprecna vrednost vseh okvirjev.
Ker je objektivna vizualna kakovost odvisna od videoposnetkov, je vsebina le-teh opisana
v naslednjih odsstavkih.
Video 1 – ”Bosphorus” (slika 5.1)
V videu je prikazano plovilo, ki pluje po morju iz leve proti desni. Iz posnetka je mogoce
ugotoviti, da kamera, ki je pritrjena na polozaju, sledi colnu s horizontalnim premikom.
Tovrstni premik kamere se imenuje pan [47]. V ozadju so morje, druga plovila, drevesa,
stavbe in most, na katerem se premikajo prevozna sredstva.
Video 2 – ”Beauty” (slika 5.2)
Video prikazuje priblizan zenski obraz s crnino v ozadju. Kamera je staticna, zasledi se
lahko samo premike znotraj scene, kot so plapolanje las, premiki glave in mezikanje z ocmi.
4Posnetki so sicer posneti pri 120 fps [68], vendar je video v formatu s 30 fps, kar upocasni gibanjeposnetka (ang. slow motion) in raztegne dolzino videa.
46
EMPIRICNA RAZISKAVA
Slika 5.1: Testni video 1, zaslonska slika nakljucnega okvirja.
Slika 5.2: Testni video 2, zaslonska slika nakljucnega okvirja.
Video 3 – ”Jockey” (slika 5.3)
Premik kamere pan sledi cloveku, ki jaha konja. Proti koncu posnetka se pan zdruzi
z vertikalnim premikom kamere navzdol tako, da je pogled usmerjen v konjeve noge.
Premik vzdolz vertikalne osi se imenuje tilt [48]. Sicer je v ozadju mogoce zaslediti stavbe,
infrastrukturo, reklamne panoje, ograje, skropljenje z vodo, stevilke in druge elemente.
Video 4 – ”ShakeNDry” (slika 5.4)
Ta video za razliko od ostalih traja 10 sekund. Vidimo lahko premik znotraj scene v
47
EMPIRICNA RAZISKAVA
Slika 5.3: Testni video 3, zaslonska slika nakljucnega okvirja.
gozdu, kjer pes strese svojo mokro dlako, od katere se razprsijo drobne kapljice. Nato
zival zapusti sceno. V ozadju so drevesa, listi in korenine.
Slika 5.4: Testni video 4, zaslonska slika nakljucnega okvirja.
Video 5 – ”HoneyBee” (slika 5.5)
Staticen posnetek priblizane makro scene, v kateri cebela leti med modrimi cvetlicami.
Posnetek je poln drobnih elementov – krila in drugi telesni deli cebele, stebla in cvetovi.
Poleg premikanja cebele je mogoce zaslediti tudi premike nekaterih cvetlic.
48
EMPIRICNA RAZISKAVA
Slika 5.5: Testni video 5, zaslonska slika nakljucnega okvirja.
Video 6 – ”YachtRide” (slika 5.6)
Video prikazuje priblizano plovilo s tremi ljudmi, ki plujejo po morju iz leve proti desni.
Kamera mu sprva sledi s premikom pan in nato obmiruje, da plovilo zapusti kader. V
ozadju so vidni morje, ptice, kopno, stavbe in drugi objekti.
Slika 5.6: Testni video 6, zaslonska slika nakljucnega okvirja.
Video 7 – ”ReadySetGo” (slika 5.7)
Ta posnetek je podoben videu 3, le da vsebuje vec objektov. Po odprtju dirkalnih vrat se
zacne gibanje sestih tekmovalcev, ki jezdijo konje iz desne proti levi, enako pa jim sledi
49
EMPIRICNA RAZISKAVA
tudi kamera z gibanjem pan. V ozadju so prevozna sredstva, stavbe, luci, zive meje, ograje,
ljudje, stevilke in drugi objekti.
Slika 5.7: Testni video 7, zaslonska slika nakljucnega okvirja.
5.3 Uporaba programske opreme in vhodni parametri
5.3.1 Handbrake
Za kodiranje oziroma stiskanje videov z omenjenimi standardi je bil uporabljen prosto
dostopni program Handbrake. Je post-produkcijsko orodje, ki je primarno namenjeno
kodiranju videoposnetkov iz razlicno podprtih izvirnih formatov v format vsebnika MP4
ali MKV [30]. Pri kodiranju lahko izbiramo med razlicnimi kodeki, v eksperimentu so
uporabljeni MPEG-2, MPEG-4 Visual, H.264 in H.265.
Zaslonska slika 5.8 prikazuje primer kodirnih nastavitev, ki so bile uporabljene pri stiskanju
s H.264. Cilj pri kodirnih nastavitvah je bil izenaciti vhodne parametre, z izjemo bitne
hitrosti. Stevilo okvirjev je bilo nastavljeno enako kot pri izvorni datoteki (30 fps), z
namenom, da je stevilo okvirjev originalnega in stisnjenega videa enako. Pod tem je bila
izbrana moznost konstantnega stevila okvirjev, ki omogoca natancnost pri izbranem stevilu
okvirjev [31]. Pomembna moznost je izbira povprecne bitne hitrosti, saj, kot je zapisano
v teoreticnem delu, ta vpliva na izhodno kakovost videa. Nastavljena povprecna bitna
50
EMPIRICNA RAZISKAVA
hitrost pomeni, da kodirnik kodira razlicno stevilo bitov v razlicnih delih videa, vendar
skusa ohraniti nastavljeno povprecje. Program sicer omogoca tudi moznost nastavitve
kakovosti videa, ki se izkljucuje z nastavitvijo bitne hitrosti, vendar skala kakovosti ni
enaka za vse standarde, zato ta moznost pri eksperimentu ni bila uporabljena. Posnetki
so bili pretvorjeni v format vsebnika mp4.
Omogoceno je enopasovno ali dvopasovno kodiranje, pri cemer dvopasovno zagotavlja
boljso kakovost in natancnejso distribucijo bitne hitrosti, enopasovno pa lahko vodi do
neoptimalnih rezultatov. Slabost je, da dvopasovno vzame vec casa za kodiranje [32]. V
raziskavi je bilo izbrano dvopasovno kodiranje, saj to omogoca natancnejse kodiranje glede
na izbrane vhodne parametre. Vnesena povprecna bitna hitrost je bila spremenljiva glede
na standard in izmerjeno objektivno kakovost.
Slika 5.8: Primer nastavitev kodiranja za H.264 v programu Handbrake.
51
EMPIRICNA RAZISKAVA
Glede na tabelo 5.1 je pri H.264 priporocljiv visoki profil. Kljub temu v raziskavi ni
uporabljen visoki profil, saj ga Handbrake omogoca le pri standardu H.264. MPEG-4
Visual je edini, s katerim se je kodiralo v enostavnem profilu, saj program za ta standard
ne podpira druge izbire profila. Pri ostalih je bil uporabili glavni profil, ki ga Handbrake
oznacuje kot profil srednje poti, ki ga podpirajo sodobne naprave. Program pri standardu
H.264 omogoca tudi izbiro nivoja, ki je bil po priporocilih [32] nastavljen na avtomatski
nacin, saj ta moznost prilagodi nivo ostalim parametrom.
Program za H.264 in H.265 omogoca tudi nastavitev razlicnih hitrosti kodiranja, ki vplivajo
na izhodno kakovost in velikost datoteke. Nastavitev pocasnejsega kodiranja zagotavlja
kompleksnejse algoritme za stiskanje, kar sicer vzame vec casa, vendar ponuja boljse rezul-
tate [34]. Na hitrost vpliva veliko faktorjev, kot so strojna oprema racunalnika, nastavitve
kodirnika in tudi izvorna datoteka. Hitrost za H.264 in H.265 je bila v eksperimentu po
priporocilih [34] nastavljena na srednjo stopnjo oziroma ”Medium”, medtem ko program
za MPEG-2 in MPEG-4 Visual ne podpira nastavitev hitrosti. Omejitev raziskave je torej
tudi, da ucinkovitost standardov ni bila obravnavana glede na hitrosti kodiranja, temvec
glede na faktor stiskanja pri dolocenih kodirnih nastavitvah. Kljub temu, da hitrost ni
glavna spremenljivka raziskave, je zabelezena pri vsakem kodiranju, saj ima pomen pri
razumevanju rezultatov.
Na kakovost in hitrost kodiranja vplivajo tudi nastavitve filtrov znotraj kodirnika [34].
Filtri ”Detelecine”, ”Deinterlace”, ”Denoise” in ”Deblock” niso bili uporabljeni, saj njihov
vpliv na izhodno kakovost ni bil cilj eksperimenta.
Resolucija pri slikovnih nastavitvah je bila nastavljena na 1920 x 1080. Slednja mora biti
deljiva s stevilom, ki je vneseno pri nastavitvi modula, ki vpliva na kompatibilnost naprav
[30]. Na spletni strani priporocajo nastavitev 2, ki je bila v raziskavi uporabljena za vse
standarde. Moznost Anamorphic je bila nastavljena na ”Auto”, saj ta nastavitev glede na
opis v programu ohranja originalno razmerje slike.
52
EMPIRICNA RAZISKAVA
Handbrake omogoca tudi stiskanje zvoka, ki za raziskavo ni relevanten, zato pri kodiranju
ni bil upostevan.
5.3.2 FFmpeg
Za ocenjevanje objektivne kakovosti in pridobivanje informacij o video datotekah je bil upo-
rabljen prosto dostopni program FFmpeg, ki nima graficno oblikovanega uporabniskega
vmesnika, temvec temelji na vnasanju ukaznih vrstic s pisanjem v program cmd.exe ope-
racijskega sistema. FFmpeg je multimedijsko racunalnisko orodje, ki omogoca upravljanje
z videoposnetki (npr. kodiranje, dekodiranje, predvajanje) [14].
S programom so bile pridobljene informacije o datotekah (povprecna bitna hitrost, for-
mat slikovne tocke, stevilo okvirjev in resolucija)5. V namen raziskave je bila na uradni
spletni strani pregledana dokumentacija filtrov, ki med drugimi opisuje meritvi PSNR in
SSIM [16, 17]. Meritvi omogocata primerjavo objektivne kakovosti med dvema vhodnima
videoposnetkoma na nacin, da se izracuna vrednost degradiranega (v primeru raziskave
stisnjenega) videoposnetka v primerjavi z originalnim oziroma referencnim. Omejitev je,
da morata imeti enako resolucijo in format slikovnih tock. V nasprotnem primeru filtra
ne delujeta pravilno. Prav tako morata imeti enako stevilo okvirjev, da jih lahko program
med seboj primerja6. Meritvi omogocata izpis vrednosti v programu cmd ali izvoz teks-
tovne datoteke, v katero se shranijo vrednosti za vsak okvir posebej. Poleg tega je mogoce
pridobiti maksimalno in minimalno vrednost med vsemi okvirji in povprecno vrednost vseh
okvirjev. Slednja je izracunana iz povprecja vseh komponent posameznega okvirja (y, u,
v, r, g, b). Mogoc je tudi izpis vrednosti za vsako komponento posebej. V raziskavi je bila
upostevana povprecna vrednost, ki je v FFmpeg pri PSNR oznacena kot ”Average”, pri
SSIM pa kot ”All”.
5Primer ukaza, ki je bil vpisan v cmd v namen pridobivanja informacij o posnetkih: ffprobe -i video.y4m6Vrednosti SSIM in PSNR sta bili v programu FFmpeg pridobljeni z naslednjim ukazom: ffmpeg
-i stisnjenVideo.mp4 -i originalenVideo.y4m -lavfi ssim; [0:v][1:v]psnr-f null –. Slednji je kopiran izdokumentacije filtrov FFmpeg [17]
53
EMPIRICNA RAZISKAVA
5.4 Eksperiment
Eksperiment zajema prikaz rezultatov stiskanja testnih videov, ki so bili kodirani s stan-
dardi MPEG-2, MPEG-4 Visual, H.264 in H.265, po nastavitvah, razlozenih v poglavju
metodologije. Pri stiskanju s H.264 je bila pri vsakem videu dolocena objektivna vizualna
kakovost, na katero se je s spreminjanjem bitne hitrosti ciljalo tudi pri ostalih standar-
dih. Dejanska povprecna bitna hitrost stisnjenih posnetkov (R) je odstopala od tiste, ki
je bila nastavljena v programu Handbrake (RN), saj se kodirnik skusa priblizati nasta-
vljeni vrednosti, ne doseze pa tocne vrednosti. Postopek spreminjanja bitne hitrosti je
bil izvajan tako dolgo, dokler ni bila vrednost PSNR priblizana na eno decimalno mesto,
vrednost SSIM pa na dve decimalni mesti natancno. Pri tem je bilo tolerirano minimalno
odstopanje, kot je zapisano v podpoglavju 5.1.
5.4.1 Rezultati eksperimenta
Rezultati eksperimenta za vse videoposnetke so prikazani v tabeli 5.2. V namen tocnosti
so vnesene originalne in ne zaokrozene meritve.
Tabela 5.2: Rezultati eksperimenta
Video 1
MPEG-2 MPEG-4 Visual H.264 H.265
RN (kbit/s) 12750 9900 8000 4900
R (kbit/s) 13621 11542 7976 4816
PSNR povprecna (dB) 44,847267 44,829463 44,844629 44,828151
SSIM povprecna 0,978530 0,979393 0,980292 0,980509
Kodirni cas (m:s) 0:17 0:32 2:17 7:06
Video 2
MPEG-2 MPEG-4 Visual H.264 H.265
54
EMPIRICNA RAZISKAVA
RN (kbit/s) 11900 9800 8000 5200
R (kbit/s) 12065 8757 8002 5150
PSNR povprecna (dB) 39,649305 39,618033 39,593635 39,560063
SSIM povprecna 0,909762 0,909010 0,909539 0,908784
Kodirni cas (m:s) 00:11 00:11 01:37 04:56
Video 3
MPEG-2 MPEG-4 Visual H.264 H.265
RN (kbit/s) 13000 10000 8000 4500
R (kbit/s) 13124 11064 8035 4453
PSNR povprecna (dB) 43,617583 43,559089 43,560456 43,629818
SSIM povprecna 0,965164 0,965456 0,966347 0,966762
Kodirni cas (m:s) 00:11 00:11 1:25 4:21
Video 4
MPEG-2 MPEG-4 Visual H.264 H.265
RN (kbit/s) 19000 12300 8000 5800
R (kbit/s) 18572 12794 7621 5406
PSNR povprecna (dB) 41,044436 40,992821 41,027820 40,977215
SSIM povprecna 0,95818 0,95915 0,96031 0,96000
Kodirni cas (m:s) 00:09 00:09 01:04 03:29
Video 5
MPEG-2 MPEG-4 Visual H.264 H.265
RN (kbit/s) 43300 13000 8000 2700
R (kbit/s) 44838 11624 7976 2681
PSNR povprecna (dB) 43,502424 43,492427 43,491468 43,520299
SSIM povprecna 0,97026 0,97118 0,97088 0,97120
Kodirni cas (m:s) 00:22 00:09 2:22 6:04
Video 6
55
EMPIRICNA RAZISKAVA
MPEG-2 MPEG-4 Visual H.264 H.265
RN (kbit/s) 13000 11900 8000 6500
R (kbit/s) 12799 11907 8069 6404
PSNR povprecna (dB) 39,646114 39,610806 39,529483 39,499889
SSIM povprecna 0,95203 0,95331 0,95863 0,959508
Kodirni cas (m:s) 00:10 00:10 01:21 04:10
Video 7
MPEG-2 MPEG-4 Visual H.264 H.265
RN (kbit/s) 18000 16500 8000 5500
R (kbit/s) 17643 16474 8067 5498
PSNR povprecna (dB) 42,338851 42,336594 42,249894 42,171838
SSIM povprecna 0,974129 0,975199 0,976974 0,976585
Kodirni cas (m:s) 00:17 00:17 02:02 6:28
Informacije v tabeli potrjujejo, da sta bili vrednosti PSNR in SSIM skupni imenovalec,
ki ga je bilo mogoce priblizati izenacenju. V teoreticnem okvirju je navedeno, da lahko
meritev SSIM pri nekaterih degradacijah zazna veliko razliko, medtem ko MSE in s tem
PSNR ostane enaka. V primeru tega eksperimenta stiskanja videa ni bilo tako, saj sta
se vrednosti meritev vedno spreminjali skladno z visanjem ali nizanjem povprecne bitne
hitrosti. Pri prvih petih primerih je bilo mogoce z vsemi standardi izenaciti vrednosti
objektivnih meritev na izbrano zaokrozeno decimalno mesto. Meritvi sta bili v konfliktu
pri sestem in sedmem videu. V primeru izenacenja vrednosti PSNR se je zvisala ali znizala
vrednosti pri SSIM in obratno. Kljub temu je bilo odstopanje minimalno oziroma znotraj
meje, ki je dolocena v metodologiji. Slika 5.9 prikazuje primer dveh nakljucnih okvirjev
videa 6, ki sta bila stisnjena s standardoma MPEG-2 in H.265, z razlicno bitno hitrostjo
in priblizno enako objektivno kakovostjo.
56
EMPIRICNA RAZISKAVA
Slika 5.9: Okvirja stisnjenih videov z MPEG-2 (na levi) in H.265 (na desni).
5.4.2 Faktor stiskanja
Vsak standard je dosegel doloceno objektivno kakovost pri razlicni bitni hitrosti (R), ki
je pomembna za izracun faktorja stiskanja (F ), definiranega v podpoglavju 3.3. Slednji je
bil izracunan za vsak standard in video v razmerju z bitno hitrostjo originalnih oziroma
referencnih posnetkov. Enacba 5.1 prikazuje primer izracuna.
F =Roriginalen video
Rstisnjen video= 746497 kbit/s
13621 kbit/s = 54,8 (5.1)
Glede na rezultate, ki so prikazani v tabeli 5.3, se lahko potrdi, da sta faktor stiska-
nja in ucinkovitost odvisna tudi od posnetkov, saj je vsak video vrnil razlicne rezultate.
Kljub odstopanjem so novejsi standardi pri vseh videoposnetkih izvedli boljso ucinkovitost
stiskanja, kar je v skladu s teorijo in pricakovanji raziskovanja. V namen ugotovitve pov-
precnega narascanja ucinkovitosti je na koncu izracunan se povprecni faktor stiskanja vseh
posnetkov. Pri stiskanju videa 5 je bila med standardoma MPEG-2 in H.265 najvecja raz-
lika faktorja, saj je MPEG-2 izvedel stiskanje z evidentno nizjim faktorjem od povprecja,
medtem ko je bil video pri H.265 stisnjen z ocitno visjim faktorjem od povprecja. Scena na
videoposnetku 5 (slika 5.5) je namrec polna drobnih elementov, pri katerih ima prednost
H.265 s fleksibilnejso in spremenljivo strukturo blokov.
Iz stolpcnega diagrama 5.1 je razvidna vizualna predstavitev povprecnega faktorja stiska-
nja glede na posamezni standard. Ucinkovitost stiskanja je izboljsana pri vsakem stan-
dardu. V 17 letih se je faktor stiskanja povecal za 115, torej iz 47 (zaokrozeno) na 162.
57
EMPIRICNA RAZISKAVA
Tabela 5.3: Faktor stiskanja (zaokrozeno na celo stevilo)
MPEG-2 MPEG-4 Visual H.264 H.265(1996) (1999) (2003) (2013)
F1 (Video 1) 55 65 94 155F2 (Video 2) 62 85 93 145F3 (Video 3) 57 67 93 168F4 (Video 4) 40 58 98 138F5 (Video 5) 17 64 94 278F6 (Video 6) 58 63 93 117F7 (Video 7) 42 45 93 136F (Povprecje) 47 64 94 162
1996 1999 2003 201340
60
80
100
120
140
160
MPEG-2 MPEG-4 H.264 H.265
Fak
tor
stis
kanja
Stolpcni diagram 5.1: Vizualna predstavitev razlike v faktorju
Tabela 5.4: Casovni intervali in spremembe faktorja stiskanja
Standard–standard Casovno obdobje Cas (leta) Razlika faktorjev SMPEG-2–MPEG-4 1996–1999 3 17 5,6
MPEG-2–H.264 1996–2003 7 47MPEG-2–H.265 1996–2013 17 115MPEG-4–H.264 1999–2003 4 30 7,5MPEG-4–H.265 1999–2013 14 98
H.264–H.265 2003–2013 10 68 6,8
58
EMPIRICNA RAZISKAVA
V tabeli 5.4 so prikazani casovni intervali in spremembe povprecnega faktorja stiskanja.
Najvecji napredek faktorja med dvema sosednjima standardoma je bil med H.264 in H.265,
vendar je med njima preteklo tudi najvec let. Najmanjsi napredek ucinkovitosti, kar se
tice sosednjih standardov, je bil med MPEG-2 in MPEG-4, pri cemer je preteklo najmanj
let. Spremenljivka S v tabeli predstavlja ucinkovitost razvoja standarda glede na casovno
obdobje. Izracunana je tako, da je napredek oziroma razlika faktorja deljena z letom, ki
so pretekla od predhodnega standarda, vkljucenega v raziskavi. Pri tem za MPEG-2 ni
bilo mogoce narediti izracuna, saj v eksperimentu ni bil obravnavan njegov predhodnik.
Rezultati kazejo, da je glede na dolzino casovnega obdobja, ki je preteklo med dvema sose-
dnjima standardoma, najucinkovitejsi H.264, saj je v stirih letih izboljsal faktor stiskanja
za 30. Po omenjenem standardu je trajalo 10 let, da se je s H.265 ucinkovitost dvignila za
68. Pri tem je treba upostevati, da leta razvoja med uveljavitvijo posameznih standardov
niso fiksna, saj ima lahko razvoj novih resitev in algoritmov daljso zgodovino.
Standard MPEG-4 Visual je bil v povprecju za faktor 17 boljsi predhodnega MPEG-2.
Ta vrednost bi bila vecja, ce bi bil tudi MPEG-4 Visual kodiran z glavnim profilom.
Handbrake namrec pri MPEG-4 Visual uporablja privzeti enostavni profil, ki ne pod-
pira arbitrarnih oblik objektov, globalne kompenzacije gibanja in okvirjev B. V skladu
s pricakovanji so rezultati pokazali, da je H.265 najucinkovitejsi standard, saj je dosegel
najvecjo vrednost faktorja stiskanja.
5.4.3 Upostevanje omejitev
Pri zgoraj omenjenih trditvah je treba upostevati omejitve raziskave. Obravnavani so bili
samo doloceni standardi tipa MPEG in H.26x. Morda bi drugi standardi ali kodeki vrnili
drugacne rezultate. Omejeni sta tudi frekvenca vzorcenja, in sicer 4:2:0, ki jo podpira
Hanbrake, in resolucija 1920 x 1080 pri 30 okvirjih na sekundo. Druge specifikacije videa
bi lahko vrnile drugacne rezultate, saj se ucinkovitost standardov razlikuje tudi glede na
resolucijo. Faktor stiskanja je odvisen tudi od objektivne kakovosti, ki je bila izbrana na
59
EMPIRICNA RAZISKAVA
podlagi stiskanja videa s standardom H.264 pri priporocljivi bitni hitrosti za spletna mesta.
Vecja bitna hitrost bi povisala objektivno kakovost in skladno s tem zmanjsala faktor
stiskanja ter obratno, pri tem pa sta pomembna tudi bitna hitrost in format originalnih
videov, ki so sluzili kot referenca za vrednotenje objektivne kakovosti in izracun faktorja.
Za stiskanje je bil uporabljen prosto dostopni program Handbrake. Druga orodja bi lahko
vrnila drugacne rezultate, saj lahko vkljucujejo drugacne moznosti vhodnih parametrov,
kot so npr. nastavitve konstantne ali variabilne bitne hitrosti, vec podprtih profilov,
nivojev in hitrosti stiskanja. Ucinkovitost stiskanja je bila vrednotena glede na faktor
stiskanja, sicer bi bila lahko ucinkovitost definirana tudi po casu kodiranja. Iz tabele 5.2
je razvidno, da naprednejsi standardi porabijo vec casa za kodiranje videa kot njihovi
predhodniki. Sicer pa je tudi hitrost kodiranja odvisna od kodirnih nastavitev. Na faktor
stiskanja torej vpliva veliko med seboj odvisnih parametrov, zato rezultatov ni smiselno
posplosevati.
60
SKLEP
6 SKLEP
Magistrsko delo vsebuje razvoj in ucinkovitost video-standardov za stiskanje z izgubo po-
datkov. V skladu z razvojem digitalnega videa in njegovih specifikacij se visa potreba po
stiskanju, saj vecje resolucije zahtevajo vecje stevilo podatkov. Pri stiskanju se z reduk-
cijo casovne in prostorske redundance sicer zmanjsata bitna hitrost in velikost datoteke
videa, vendar se s tem zmanjsa tudi njegova vizualna kakovost. V razvoju sestih standar-
dov je mogoce zaslediti, da razvijalci z novimi resitvami pri vsakem standardu izboljsajo
ucinkovitost stiskanja. Slednja je lahko izrazena s faktorjem stiskanja pri doloceni vizu-
alni kakovosti. Ker je subjektivno ocenjevanje kakovosti odvisno od ocenjevalca in drugih
faktorjev, so se razvila objektivna merila, ki omogocajo izracun kakovosti stisnjenega vi-
deoposnetka tako, da se sklicujejo na referencni ne stisnjen posnetek.
V empiricnem delu magistrskega dela je implementiran eksperiment, ki vsebuje primerjavo
faktorja stiskanja pri kodiranju sedmih ne stisnjenih testnih videov s standardi MPEG-2,
MPEG-4 Visual, H.264 in H.265. Za meritev izenacenja objektivne vizualne kakovosti
sta bili uporabljeni meritvi PSNR in SSIM. Vsak video je sicer vrnil drugacne rezultate,
vendar so potrdili ucinkovitejse stiskanje pri vsakem naprednejsem standardu, saj je bil
faktor stiskanja pri dolocenem standardu vedno visji od njegovega predhodnika. V skladu
s pricakovanji raziskovanja je bil najucinkovitejsi standard H.265, ki je imel pri stiskanju
vseh videov najvecji faktor.
Raziskava je bila izvedena znotraj dolocenih omejitev, zato obstaja moznost nadaljnjih
raziskav, ki bi lahko bile osredotocene na ucinkovitost stiskanja pri vecjih ali manjsih
61
SKLEP
bitnih hitrostih z manjsim ali vecjim faktorjem stiskanja. Lahko bi bilo vkljucenih vec
standardov in vec razlicnih videov, primerjava ucinkovitosti med razlicnimi profili, im-
plementacija eksperimenta z drugo programsko in strojno opremo, preucitev odvisnosti
ucinkovitosti stiskanja posameznih standardov od resolucije videa, meritev ucinkovitosti
stiskanja pri resoluciji 4K, primerjava ucinkovitosti standardov glede na hitrost kodiranja
in dekodiranja, raziskava uveljavljanja standarda H.265 v praksi itd.
62
VIRI
VIRI
[1] Avcibas, I., Sankur, B., Sayood, K. Statistical evaluation of image quality measures.
Journal of Electronic Imaging 11(2), str. 206–223, 2002.
[2] Axis Communications. H.264 video compression standard: New possibilities within
video surveillance. White paper, 2016.
[3] Brown, L. What Is Video Format and Which Video Format to Choose? Filmora,
2017. Dostopno na: https://filmora.wondershare.com/video-editing-tips/video-
formats.html [3. 7. 2017].
[4] Chen, J., Koc, U., Liu, K. Design of Digital Video coding Systems: A complete
Compressed Domain Approach. New York: Marcel Dekker Inc., 2002.
[5] CCITT Recomendation H.261, Video Codec for Audiovisual Services at p x 64 kbit/s.
CCITT, 1990.
[6] CCITT Recomendation MPEG-1, Coding of Moving Pictures and Associated audio
for Digital Storage Media at up to about 1.5 Mbit/s. Geneve Switzerland: ISO/IEC,
1993.
[7] Church, E. Top 10 video formats. Imagen, 2015. Dostopno na:
https://imagenevp.com/top-10-video-formats/ [3. 7. 2017]
[8] Cisco. White paper: Cisco VNI Forecast and Methodology, 2015-2020. 2016. Dosto-
pno na: http://www.cisco.com/c/en/us/solutions/collateral/service-provider/visual-
networking-index-vni/complete-white-paper-c11-481360.html [30. 5. 2017].
[9] Clark, B. All you need to know about video codecs, containers and compression. Ma-
keuseof, 2015. Dostopno na: http://www.makeuseof.com/tag/all-you-need-to-know-
about-video-codecs-containers-and-compression/ [3. 7. 2017].
63
VIRI
[10] Dhont, Y., Lambert, P. Flexible Macroblok Ordering an error resilience tool in H.264.
Faculty of Engineering, Ghent University, 2004 - paper nr. 106.
[11] Encoding.com. Understanding bitrates in video files. Knowledge Base, 2017. Dosto-
pno na: http://help.encoding.com/knowledge-base/article/understanding-bitrates-
in-video-files/ [15. 4. 2017].
[12] EBU EBU Recommendation R132: Signal Quality in HDTV Production and Broad-
cast Services. Geneva, 2011.
[13] Facebook ads guide. Video Views: Tell a story using a video in your ad. Fa-
cebook, 2017. Dostopno na: https://www.facebook.com/business/ads-guide/video-
views/facebook-video-views?toggle0=No [4. 6. 2017].
[14] FFmpeg. About FFmpeg. Dostopno na: https://ffmpeg.org/about.html [4. 4. 2017].
[15] FFmpeg. ffmpeg Documentation. Dostopno na: ht-
tps://ffmpeg.org/ffmpeg.html#Synopsis [4. 4. 2017].
[16] FFmpeg. FFmpeg Filters Documentation: ssim. Dostopno na:
https://ffmpeg.org/ffmpeg-filters.html#psnr [4. 4. 2017].
[17] FFmpeg. FFmpeg Filters Documentation: ssim. Dostopno na:
https://ffmpeg.org/ffmpeg-filters.html#ssim [4. 4. 2017].
[18] FileInfo. .AVI File Extension. Dostopno na: https://fileinfo.com/extension/avi
[9. 7. 2017].
[19] FileInfo. .MKV File Extension. Dostopno na: https://fileinfo.com/extension/mkv
[9. 7. 2017].
[20] FileInfo. .MOV File Extension. Dostopno na: https://fileinfo.com/extension/mov
[9. 7. 2017].
64
VIRI
[21] FileInfo. .MP4 File Extension. Dostopno na: https://fileinfo.com/extension/mp4
[10. 7. 2017].
[22] FileInfo. Video Files Dostopno na: https://fileinfo.com/filetypes/video [9. 7. 2017].
[23] FileInfo. .YUV File Extension. Dostopno na: https://fileinfo.com/extension/yuv
[7. 7. 2017].
[24] FileInfo. .Y4M File Extension. Dostopno na: https://fileinfo.com/extension/y4m
[12. 7. 2017].
[25] Fraunhofer. JVET JEM software. Fraunhofer Heinrich Hertz Institute, 2013 – 2016.
Dostopno na: https://jvet.hhi.fraunhofer.de/ [15. 7. 2017].
[26] Ghanbari, M.9.1: Video Object Plane. 1999. Dostopno na:
http://www.globalspec.com/reference/34034/203279/9-1-video-object-plane-vop
[4. 4. 2017].
[27] Google support. Youtube help: Recommended upload encoding set-
tings. 2017. YouTube Terms of Service, 2017. Dostopno na: ht-
tps://support.google.com/youtube/answer/1722171?hl=en [4. 6. 2017].
[28] Gretchen, A. Dynamic Range (DNR) and Signal to Noise Ratio (SNR)
for CCD and CMOS image sensors. Adimec, 2013. Dostopno na:
http://info.adimec.com/blogposts/bid/102325/Dynamic-Range-DNR-and-Signal-to-
Noise-Ratio-SNR-for-CCD-and-CMOS-image-sensors [ 28. 7. 2017].
[29] Grois, D., Marpe, D., Mulayoff, A., Hadar, O. Performance Comparison of
H.265/MPEG-HEVC, VP9, and H.264/MPEG-AVC Encoders. IEEE, 2013. Dosto-
pno na: http://ieeexplore.ieee.org/document/6737766/ [4. 4. 2016].
[30] Handbrake. About Handbrake. Handbrake Team, 2017. Dostopno na: ht-
tps://handbrake.fr/docs/en/latest/introduction/about.html [29. 5. 2017].
65
VIRI
[31] Handbrake. Frame rate. Handbrake Team, 2017. Dostopno na:
https://handbrake.fr/docs/en/latest/technical/frame-rates.html [30. 5. 2017].
[32] Handbrake. Profiles and levels Handbrake Team, 2017. Dostopno na:
https://handbrake.fr/docs/en/latest/technical/video-x264-profiles-levels.html
[4. 6. 2017].
[33] Handbrake. Resizing video Handbrake Team, 2017. Dostopno na:
https://handbrake.fr/docs/en/latest/advanced/resizing-video.html [4. 6. 2017].
[34] Handbrake. Video encoding speed. Handbrake Team, 2017. Dostopno na:
https://handbrake.fr/docs/en/latest/technical/video-encoding-performance.html
[3. 5. 2017].
[35] Handbrake. Constant quality vs average bit rate: Average bit rate Handbrake
Team, 2017. Dostopno na: https://handbrake.fr/docs/en/latest/technical/video-cq-
vs-abr.html [3. 6. 2017]
[36] Harrington, R., Krogh, P. File Format: Video file format overview. dpBestflow, 2015.
Dostopno na: http://www.dpbestflow.org/Video_Format_Overview [4. 7. 2017].
[37] Hore, A., Ziou, D. Image quality metrics: PSNR vs. SSIM. Conference Paper, 2010.
[38] About the IEC: Welcome to the IEC. Dostopno na:
http://www.iec.ch/about/?ref=menu [3. 5. 2017].
[39] Ibekwe, M. Objective Video Quality Evaluation and H.264/SVC
Content Streaming over WLANs. 2013. Dostopno na:
http://access.feld.cvut.cz/view.php?cisloclanku=2013010001 [14. 7. 2017].
[40] International Organiation for Standardization. About ISO. Dostopno na:
https://www.iso.org/about-us.html [3. 5. 2017].
66
VIRI
[41] International telecommunication union. ITU-T Recommendation H.261: Video codec
for audiovisual services at p x 64 kbit/s. Telecommunication standardization sector
of ITU, 03/93.
[42] JVET. Algorithm description of JVET Joint Exploration Test Model
6 (JEM6). 6th Meeting, Hobart, AU, 2017. Dokument dostopen na:
http://mpeg.chiariglione.org/standards/exploration/future-video-coding/n16887-
algorithm-description-jvet-joint-exploration-test [16. 7. 2017].
[43] Jukic, S. 4K Ultra HD (UHD) Resolution – Comparison of 4k vs 1080p and Everything
You Need to Know. 2016. Dostopno na: http://4k.com/resolution/ [28. 6. 2017].
[44] Lovrencic, T., Stular, M., Zgank, A. Koncept vec-modalnega evalvatorja kakovosti
multimedije. Elektrotehniski vestnik, 79, (2012), 5, str. 165–168.
[45] Mahsa, P., Doutre, C., Azimi, M., Nasiopoulos, P. HEVC: The New Gold Standard for
Video Compression: How does HEVC compare with H.264/AVC? IEEE Consumer
electronics magazine, 2012.
[46] Make MKV. About MKV file format. GuinpinSoft, 2017. Dostopno na:
http://www.makemkv.com/aboutmkv/MKV [9. 7. 2017].
[47] Media College. Home: Video: Camera Work: Shot Types: Movement: Pan. Dostopno
na: http://www.mediacollege.com/video/shots/pan.html [9. 7. 2017].
[48] Media College. Home: Video: Camera Work: Shot Types: Movement: Tilt. Dostopno
na: http://www.mediacollege.com/video/shots/tilt.html [9. 7. 2017].
[49] MulticoreWare. HEVC / H.265 Explained. Dostopno na: http://x265.org/hevc-h265/
[22. 5. 2017].
[50] National Instruments. Peak Signal-to-Noise Ratio as an Image Quality Metric. 2013.
Dostopno na: http://www.ni.com/white-paper/13306/en/ [28. 3. 2017].
67
VIRI
[51] National Instruments. What’s New in NI Vision Development Module 2011. 2016.
Dostopno na: http://www.ni.com/white-paper/12956/en/[28. 3. 2017].
[52] Ohm, J., Sullivian, G. J., Schwarz, H., Thiow Keng Tan, Wiegand, T.
Comparison of the Coding Efficiency of Video Coding Standards – Inclu-
ding High Efficiency Video Coding (HEVC). IEEE transactions on circu-
its and systems for video technology, vol. 22, no. 12, 2010. Dostopno na:
http://ieeexplore.ieee.org/stamp/stamp.jsp?arnumber=6298450 [4. 4. 2017].
[53] Poynton, C. A Technical Introduction to Digital Video: Basic principles. 1996, str.
1–31.
[54] Ponlatha, S., Sabeenian, R., S. Comparison of Video Compression Standards. Inter-
national Journal of Computer and Electrical Engineering, Vol. 5, St. 6, 2013, str. 549
– 554.
[55] Pusnik, N., Kozmelj, M., Pecnik, K. Strojne in programske zahteve za prenos v zivo
in video na zahtevo. V Z. Vladomir, A. Trost, ur. Zbornik petindvajsete mednarodne
Elektrotehniske in racunalniske konference ERK 2016. Portoroz, Slovenija: Slovenska
sekcija IEEE. 2016. 85 -– 88
[56] Pusnik, N., Kozmelj, M., Pecnik, K. Tehnologije za prenos v zivo in ogled videa na
zahtevo. V Z. Vladomir, A. Trost, ur. Zbornik petindvajsete mednarodne Elektro-
tehniske in racunalniske konference ERK 2016. Portoroz, Slovenija: Slovenska sekcija
IEEE. 2016. 89 -– 92
[57] Richardson, I. E. G. H.264 and MPEG-4 Video compression, UK Wiley, 2003.
[58] Salomon, D., Motta, G. Handbook of data compression. 5th ed. Springer London
Dordrecht Heidelberg New York, 2010, str. 1–23, 463–466, 480–503, 855–927.
[59] Sequoia. HEVC – What are CTU, CU, CTB, CB, PB and TB? 2012. Dosto-
pno na: https://codesequoia.wordpress.com/2012/10/28/hevc-ctu-cu-ctb-cb-pb-and-
tb/ [22. 5. 2017].
68
VIRI
[60] Sonnati, F. H265 – part I: Technical Overwiev. Video encoding & Streaming Tech-
nologies, 2014. Dostopno na: https://sonnati.wordpress.com/2014/06/20/h265-part-
i-technical-overview/ [15. 7. 2017].
[61] Sullivian, J.G., Ohm, J.R., Han, W., Wiegand T. Overview of the High Efficiency
Video Coding (HEVC) Standard.IEEE Transactions on circuits and systems for video
technology, vol. 22, no. 12, 2012.
[62] The Moving Picture Experts Group – MPEG. MPEG-1 Video. Dostopno na:
http://mpeg.chiariglione.org/standards/mpeg-1/video [10. 4. 2017].
[63] The Moving Picture Experts Group – MPEG. MPEG-2 Video. Dostopno na:
http://mpeg.chiariglione.org/standards/mpeg-2/video [10. 4. 2017].
[64] The Moving Picture Experts Group – MPEG. MPEG-4 Video. Dostopno na:
http://mpeg.chiariglione.org/standards/mpeg-4/video [10. 4. 2017].
[65] The Moving Picture Experts Group – MPEG. MPEG-4 Advanced Video Coding. Do-
stopno na: http://mpeg.chiariglione.org/standards/mpeg-4/advanced-video-coding
[18. 4. 2017].
[66] TechTerms. Bits and Bytes: Bitrate definition Dostopno na: ht-
tps://techterms.com/definition/bitrate [28. 4. 2017].
[67] Uhrina, M., Frnda, J., Sevcik, L., Vaculik, M. Impact of H.264/AVC and
H.265/HEVC compression standards on the video quality for 4k resolutions. Advances
in Electrical and Electronic Engineering, vol. 12, 2014.
[68] Ultra video group. Test Sequences. Dostopno na:
http://ultravideo.cs.tut.fi/#testsequences [5. 6. 2017].
[69] Vcodex. Historical timeline of video coding standards and formats. Dosto-
pno na: https://www.vcodex.com/historical-timeline-of-video-coding-standards-and-
formats/ [2. 5. 2017].
69
VIRI
[70] Verma, A. The Next Frontier in Video Encoding. Texas Instruments, 2013.
[71] Vimeo. Help Center / Video Compression Guidelines. Vimeo, 2017. Dostopno na:
https://vimeo.com/help/compression [4. 6. 2017].
[72] Zhou, W., Bovik, C., A. Mean Squared Error: Love It or Leave It? A new look at
signal fidelity measures. IEE Signal processing magazine, 2009.
[73] Wang, Z., Rehman, A. SSIM-Inspired Perceptual Video Coding for HEVC. Water-
loo: IEEE International Conference on Multimedia and Expo, 2012. Dostopno na:
http://ieeexplore.ieee.org/stamp/stamp.jsp?arnumber=6298450 [4. 4. 2017].
[74] Wiegand, G., Sulluvian, J., Bjontegaard, G., Luthra, A. Overview of the H.264/AVC
video coding standard. IEEE trans. Circuits Syst. Video Technol., vol. 13, str. 560–576,
2013.
[75] Yusra, A., Soong, D. Comparison of Image Quality Assessments: PSNR, HVS, SSIM,
UIQI. International Journal of Scientific Engineering Research, Volume 3, Issue 8,
2012.
[76] YUVsoft Corporation. x264 Codec Capabilities Analysis: Parameters Comparison.
YUVsoft Corp, 2007.
70