digitális hang, kép és videóállományok
DESCRIPTION
Digitális hang, kép és videóállományok. Kiss Attila Információs Rendszerek Tanszék [email protected]. Digitális médiaállományok. A számítógép számára a hang, kép, videó ugyanolyan állomány mint egy közönséges szöveges állomány. Általában az állomány kiterjesztése utal a média típusára. - PowerPoint PPT PresentationTRANSCRIPT
![Page 1: Digitális hang, kép és videóállományok](https://reader036.vdocuments.mx/reader036/viewer/2022062408/56813627550346895d9da08f/html5/thumbnails/1.jpg)
1
Digitális hang, kép és videóállományok
Kiss AttilaInformációs Rendszerek Tanszék
![Page 2: Digitális hang, kép és videóállományok](https://reader036.vdocuments.mx/reader036/viewer/2022062408/56813627550346895d9da08f/html5/thumbnails/2.jpg)
2
Digitális médiaállományok A számítógép számára a hang, kép, videó
ugyanolyan állomány mint egy közönséges szöveges állomány. Általában az állomány kiterjesztése utal a média típusára.
Képek nevének kiterjesztése:– BMP, JPG, GIF, TIF, PNG, PPM, …
Hanganyagok nevének kiterjesztése– WAV, MP3, …
Viedók nevének kiterjesztése:– AVI, MOV, …
![Page 3: Digitális hang, kép és videóállományok](https://reader036.vdocuments.mx/reader036/viewer/2022062408/56813627550346895d9da08f/html5/thumbnails/3.jpg)
3
Egy képállomány tartalma Szövegszerkesztővel megnyitva egy képállományt értelmes és
értelmetlen sorozatokat kapunk:
P6: (Portable Pixel Map - ppm kép)
Felbontás: 512x512Színek száma: 255
![Page 4: Digitális hang, kép és videóállományok](https://reader036.vdocuments.mx/reader036/viewer/2022062408/56813627550346895d9da08f/html5/thumbnails/4.jpg)
4
A képállomány tartalma hexadecimálisan
Általában egy fejlécben leíró információkat találunk.
![Page 5: Digitális hang, kép és videóállományok](https://reader036.vdocuments.mx/reader036/viewer/2022062408/56813627550346895d9da08f/html5/thumbnails/5.jpg)
5
Multimédia állományok forrásai Multimédia állományok sokféle eszköz használatával
keletkezhetnek:– digitális fényképezőgép, képolvasó, – digitális hang, vagy filmfelvevő, – digitális kamera.
Ezeknek a következő feladatokat kell végrehajtaniuk:– Mintavételezés: A folytonos jelekből véges sok mintát
választunk ki. – Digitalizálás: A folytonos mintát véges számsorozattá
alakítják.– Tömörítjük a számsorozatot.
![Page 6: Digitális hang, kép és videóállományok](https://reader036.vdocuments.mx/reader036/viewer/2022062408/56813627550346895d9da08f/html5/thumbnails/6.jpg)
6
Egy hang audiójele
A hang audiójele megjeleníthető, nagyítható,szerkeszthető, transzformálható (erősíthető, halkítható, lemezkattogás eltávolítható, stb.)
![Page 7: Digitális hang, kép és videóállományok](https://reader036.vdocuments.mx/reader036/viewer/2022062408/56813627550346895d9da08f/html5/thumbnails/7.jpg)
7
A folytonos audiójelből szabályos időközönként mintákat veszünk
0 10 20 30 40 50 60 70 80 90 100-1
-0.8
-0.6
-0.4
-0.2
0
0.2
0.4
0.6
0.8
1
t
Am
plit
ud
e
Mintaperiódus Ts,fs =1/Ts
Jelperiódus: T, f = 1/T
T >= 2Ts kell, hogy legyen.
![Page 8: Digitális hang, kép és videóállományok](https://reader036.vdocuments.mx/reader036/viewer/2022062408/56813627550346895d9da08f/html5/thumbnails/8.jpg)
8
fs = 2.5f
fs = 1.67f
0 10 20 30 40 50 60 70 80 90 100-1
-0.8
-0.6
-0.4
-0.2
0
0.2
0.4
0.6
0.8
1
t
Am
plit
ud
e
Eredeti jel
Egy másik jel
A minta alapján nem különböztet-hetők meg.Torzítást eredményez.
0 10 20 30 40 50 60 70 80 90 100-1
-0.8
-0.6
-0.4
-0.2
0
0.2
0.4
0.6
0.8
1
t
Am
plitu
de
![Page 9: Digitális hang, kép és videóállományok](https://reader036.vdocuments.mx/reader036/viewer/2022062408/56813627550346895d9da08f/html5/thumbnails/9.jpg)
9
0 10 20 30 40 50 60 70 80 90 100-1
-0.8
-0.6
-0.4
-0.2
0
0.2
0.4
0.6
0.8
1
t
Am
plit
ude
0 10 20 30 40 50 60 70 80 90 100-1
-0.8
-0.6
-0.4
-0.2
0
0.2
0.4
0.6
0.8
1
t
Am
plit
ude
fs = 2f
Végtelen sok szinuszhullámot lehet a pontokra illeszteni.
![Page 10: Digitális hang, kép és videóállományok](https://reader036.vdocuments.mx/reader036/viewer/2022062408/56813627550346895d9da08f/html5/thumbnails/10.jpg)
10
A frekvencia felbontása A folytonos jelet véges vagy végtelen sok
szinusz hullám összegeként lehet előállítani.
A szinusz komponenseket “Fourier-transz-formációval” lehet előállítani.
A felbontást és a továbbiakat tetszőleges jelre (nem csak audióra, hanem képekre, videóra) lehet alkalmazni.
Ha a jel frekvenciakomponensei
{f1 < f2 < f3 … < fn}, akkor milyen minimális mintafrekvenciát kell használni?
![Page 11: Digitális hang, kép és videóállományok](https://reader036.vdocuments.mx/reader036/viewer/2022062408/56813627550346895d9da08f/html5/thumbnails/11.jpg)
11
Nyquist tétele
Nyquist tétel – Ahhoz, hogy a folytonos jel visszaállítható legyen a
mintából, teljesülnie kell a következőnek fs > 2fmax
ahol fmax a jel komponensei közül a legnagyobb frekvenciájú jel frekvenciája.
– Ha a jel komponenseinek frekvenciái [f1, f2] intervallumba esnek, akkor a visszaállíthatósághoz annak kell teljesülnie, hogy
fs >2 (f2-f1).
![Page 12: Digitális hang, kép és videóállományok](https://reader036.vdocuments.mx/reader036/viewer/2022062408/56813627550346895d9da08f/html5/thumbnails/12.jpg)
12
Képek mintavételezése
A mintavételezési tétel 2D jelekre (képekre) is alkalmazható.
Mintavételezés rácspontokon.
Milyen sűrű legyen a rács?
![Page 13: Digitális hang, kép és videóállományok](https://reader036.vdocuments.mx/reader036/viewer/2022062408/56813627550346895d9da08f/html5/thumbnails/13.jpg)
13
Az eredeti kép
![Page 14: Digitális hang, kép és videóállományok](https://reader036.vdocuments.mx/reader036/viewer/2022062408/56813627550346895d9da08f/html5/thumbnails/14.jpg)
14
A rossz mintavételezés miatt torzulás keletkezik
Homályosabb a kép, és a kendő és nadrág csíkjaiban furcsa interferálás látható.
![Page 15: Digitális hang, kép és videóállományok](https://reader036.vdocuments.mx/reader036/viewer/2022062408/56813627550346895d9da08f/html5/thumbnails/15.jpg)
15
Digitalizálás A mintavételezéssel kapott jel még folytonos, végtelen
sok lehetséges értéket tartalmazhat.
A digitalizálás sorám ezt a végtelen sok értéket akarjuk fix számú számmal leírni, közelíteni.
N szám leírásához log2N bitre van szükségünk.
Mi határozza meg, hogy egy hang vagy kép esetén hány bittel kódoljuk a mintát?
![Page 16: Digitális hang, kép és videóállományok](https://reader036.vdocuments.mx/reader036/viewer/2022062408/56813627550346895d9da08f/html5/thumbnails/16.jpg)
16
Audiójelek digitalizálása Mit jelent, hogy egy audiójel 16bites és 44kHz-es?
A 44KHz a mintavételezési frekvencia. A zenékben általában magasabb frekvenciakomponensek fordulnak elő mint a beszédben. A 8kHz mintavételezés a telefonminőségű beszéd rögzítéséhez szükséges mintavételezés.
16bit azt jelenti, hogy minden mintát 16bites egészként ábrázolunk.
Arra is gondolni, kell, hogy a digitális audiójelek több csatornát is tartalmazhatnak.
![Page 17: Digitális hang, kép és videóállományok](https://reader036.vdocuments.mx/reader036/viewer/2022062408/56813627550346895d9da08f/html5/thumbnails/17.jpg)
17
Digitális képek
Egy kép mintavételezése pixelenként történik. A pixelek mátrixot alkotnak.
![Page 18: Digitális hang, kép és videóállományok](https://reader036.vdocuments.mx/reader036/viewer/2022062408/56813627550346895d9da08f/html5/thumbnails/18.jpg)
18
A digitális képek típusai Szürkeárnyalatos
(Grayscale) kép– Általában 256 szintje
lehet a pixeleknek. Így minden pixelt 8 bittel tudunk megadni.
– Az MRI orvosi képek 16 bittel írnak le egy pixelt.
![Page 19: Digitális hang, kép és videóállományok](https://reader036.vdocuments.mx/reader036/viewer/2022062408/56813627550346895d9da08f/html5/thumbnails/19.jpg)
19
Bináris kép
A bináris kép csak 1 bitet használ pixelenként (0 vagy 1).
A bináris képeknek fontos szerepük van a képelemzésekben, objektumok felismerésében.
![Page 20: Digitális hang, kép és videóállományok](https://reader036.vdocuments.mx/reader036/viewer/2022062408/56813627550346895d9da08f/html5/thumbnails/20.jpg)
20
Bitsíkok
[ b7 b6 b5 b4 b3 b2 b1 b0]
MSB LSB
A 8 bit komponensei alapján 8 bináris képet (bitsíkot) kapunk.
MSB – legszignifikánsabb bit az első
LSB – legkevésbé szignifikáns bit az utolsó
![Page 21: Digitális hang, kép és videóállományok](https://reader036.vdocuments.mx/reader036/viewer/2022062408/56813627550346895d9da08f/html5/thumbnails/21.jpg)
21
Összemosás (Dithering)
Szürkeárnyalatos képet bináris képpel is reprezentálhatunk.
0 1
2 3
Maredékos osztással a 256 érték 4 értékre konvertáljuk:I’ = floor(I/64)
![Page 22: Digitális hang, kép és videóállományok](https://reader036.vdocuments.mx/reader036/viewer/2022062408/56813627550346895d9da08f/html5/thumbnails/22.jpg)
22
Dithering mátrix
Egy Dithering mátrixszal reprezentáljuk a 4 szintet. Kevesebb színnel érjük el az eredeti hatást.
0 1
2 3
0 12 3
A mátrix ebben az esetben:
Hasonlóan csak piros és kék váltakozása lila színt eredményez, ha elég kicsik a pontok.
![Page 23: Digitális hang, kép és videóállományok](https://reader036.vdocuments.mx/reader036/viewer/2022062408/56813627550346895d9da08f/html5/thumbnails/23.jpg)
23
A színes képek felbontása
r
g
b
RGB – piros, zöld, kékMás színsémák: YUV, HSV.
24 bit image
3 színkomponensre bontjuk a képet. Mindegyik szín intenzitása egy szürkeárnyalatos képet definiál.
![Page 24: Digitális hang, kép és videóállományok](https://reader036.vdocuments.mx/reader036/viewer/2022062408/56813627550346895d9da08f/html5/thumbnails/24.jpg)
24
Színtábla
256 színt használó kép
r
g
b
Színklaszterek
Kevesebb szín használata is elég, ha klaszterezéssel meghatározzuk a képen az azonos színű csoportokat.
![Page 25: Digitális hang, kép és videóállományok](https://reader036.vdocuments.mx/reader036/viewer/2022062408/56813627550346895d9da08f/html5/thumbnails/25.jpg)
25
Az emberi szem érzékeléseA szemben kétféle fényérzékelő sejt működik: a csapok és pálcikák.
A pálcikák a fekete-fehér látványt érzékelik.
A csapok a színeket érzékelik.Háromféle csap érzékeli a háromféle színt.
Színinger-összetevők előállítása színinger-megfeleltető függvények és E sugárzáseloszlás alapján:R = s E() Sr()dG = s E() Sg()dB = s E() Sb()d
![Page 26: Digitális hang, kép és videóállományok](https://reader036.vdocuments.mx/reader036/viewer/2022062408/56813627550346895d9da08f/html5/thumbnails/26.jpg)
26
A színek
A színösszetevők meghatározása kísérlettel.
ö s s z e h a s o n l í t óf é n y f o r r á s o k
v i z s g á l a n d ó f é n y f o r r á s
i n t e n z i t á s t s z a b á l y o z óf é n y r e k e s z
![Page 27: Digitális hang, kép és videóállományok](https://reader036.vdocuments.mx/reader036/viewer/2022062408/56813627550346895d9da08f/html5/thumbnails/27.jpg)
27
A Gamma korrekció
A képernyők fényessége I’ nem lineáris az input kép I fényességéhez viszonyítva.
I’ = I
Hatványozással korrigáljuk a fényességet: (I’)1/ = I
Például CRT esetén a 2.2 körüli érték.
0,5 fényességű képet csak 0,218 fényességűnek mutat a képernyő.
![Page 28: Digitális hang, kép és videóállományok](https://reader036.vdocuments.mx/reader036/viewer/2022062408/56813627550346895d9da08f/html5/thumbnails/28.jpg)
28
A Gamma korrekció
Lineárisan változó fényességGamma korrekció nélkülnem lesz egyenletes.
Lineárisan változó fényességGamma korrekcióval már egyenletes lesz.
![Page 29: Digitális hang, kép és videóállományok](https://reader036.vdocuments.mx/reader036/viewer/2022062408/56813627550346895d9da08f/html5/thumbnails/29.jpg)
29
Videójelek Analóg videójelek
Páros framePáratlan frame
52.7us
10.9us
0v
fehér
fekete
![Page 30: Digitális hang, kép és videóállományok](https://reader036.vdocuments.mx/reader036/viewer/2022062408/56813627550346895d9da08f/html5/thumbnails/30.jpg)
30
Digitalális videó
N. Frame
0. Frame
idő
A digitális videó egy 3D függvénnyel írható le: f(x,y,t)
![Page 31: Digitális hang, kép és videóállományok](https://reader036.vdocuments.mx/reader036/viewer/2022062408/56813627550346895d9da08f/html5/thumbnails/31.jpg)
31
Színes videók (PAL)
YUV színsémát használ a PAL rendszer. Az YUV és RGB közti transzformáció a
következő: Y a fényességi komponens Y = 0.299 R + 0.587 G + 0.144 B U és V
két színkomponens. U = B – Y V = R - Y
Y U V
![Page 32: Digitális hang, kép és videóállományok](https://reader036.vdocuments.mx/reader036/viewer/2022062408/56813627550346895d9da08f/html5/thumbnails/32.jpg)
32
Színes videók (NTSC)
YIQ az NTSC sémája
YCbCr: A JPEG-ben használt színséma
I Q