univerza v mariboru fakulteta za ...zvoka se odbije od sten sobe in potuje po daljših poteh, kot...

102
UNIVERZA V MARIBORU FAKULTETA ZA ELEKTROTEHNIKO RAČUNALNIŠTVO IN INFORMATIKO Boštjan Imperl DIGITALNI ZVOK Diplomska naloga Maribor, december, 2003

Upload: others

Post on 25-Mar-2020

2 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: UNIVERZA V MARIBORU FAKULTETA ZA ...zvoka se odbije od sten sobe in potuje po daljših poteh, kot direkten zvok in tako doseže ušesa nekoliko kasneje (pot B). Odbiti zvoki so tudi

UNIVERZA V MARIBORU FAKULTETA ZA ELEKTROTEHNIKO RAČUNALNIŠTVO IN INFORMATIKO

Boštjan Imperl

DIGITALNI ZVOK

Diplomska naloga

Maribor, december, 2003

Page 2: UNIVERZA V MARIBORU FAKULTETA ZA ...zvoka se odbije od sten sobe in potuje po daljših poteh, kot direkten zvok in tako doseže ušesa nekoliko kasneje (pot B). Odbiti zvoki so tudi

i

UNIVERZA V MARIBORU

FAKULTETA ZA ELEKTROTEHNIKO, RAČUNALNIŠTVO IN INFORMATIKO 2000 Maribor, Smetanova ul. 17

Diplomska naloga univerzitetnega študijskega programa

DIGITALNI ZVOK

Študent: Boštjan IMPERL Študijski program: univerzitetni, Elektrotehnika Smer: Elektronika Mentor: red. prof. dr. Bogomir HORVAT Somentor: doc. dr. Janez STERGAR

Maribor, december 2003

Page 3: UNIVERZA V MARIBORU FAKULTETA ZA ...zvoka se odbije od sten sobe in potuje po daljših poteh, kot direkten zvok in tako doseže ušesa nekoliko kasneje (pot B). Odbiti zvoki so tudi

ii

Page 4: UNIVERZA V MARIBORU FAKULTETA ZA ...zvoka se odbije od sten sobe in potuje po daljših poteh, kot direkten zvok in tako doseže ušesa nekoliko kasneje (pot B). Odbiti zvoki so tudi

iii

ZAHVALA

Zahvaljujem se mentorju dr. Bogomiru Horvatu za pomoč in vodenje pri opravljanju diplomske naloge. Prav tako se zahvaljujem somentorju dr. Janezu Stergarju za vsestransko pomoč. Posebna zahvala velja očetu, ki me je podpiral in mi stal ob strani tekom študija.

Page 5: UNIVERZA V MARIBORU FAKULTETA ZA ...zvoka se odbije od sten sobe in potuje po daljših poteh, kot direkten zvok in tako doseže ušesa nekoliko kasneje (pot B). Odbiti zvoki so tudi

iv

DIGITALNI ZVOK Ključne besede: digitalni zvok, zvok, sluh, A/D pretvorba, frekvenca vzorčenja,

kvantizacija, digitalno avdio urejanje, Dolby UDK: Povzetek: Namen diplomskega dela je pregledno predstaviti digitalni zvok kot eno glavnih zvrsti medijev v večpredstavnih okoljih. V diplomskem delu obravnavamo med drugim vsebine povezane z nastankom zvoka s stališča fizikalnih zakonitosti, kako ljudje slišimo, kako preidemo iz analognega zapisa zvoka v digitalni zapis - A/D pretvorbo, katere faktorje moramo pri A/D pretvorbi upoštevati in katere razlike se pojavijo ob neupoštevanju le–teh? Nadalje smo želeli prikazati razširjenost digitalnega zapisa zvoka v kontekstu različnih digitalnih medijev za shranjevanje ter vplivov različnih učinkov in filtrov na digitalni posnetek. Predstavili smo uporabo digitalnega avdia v hišnem (domačem) okolju – “hišni kino” (Dolby Laboratories) in povezavo standarda digitalnega zapisa zvoka Dolby z analognim zvokom ter standard MIDI in SMDL. Poleg teoretične analize digitalnega zvoka smo pripravili tudi praktični del analize digitalnega zvoka, ki temelji na uporabi osebnega računalnika kot multimedijskega orodja. Z aplikativno uporabo digitalnega avdio urejevalnika Cool Edit (Syntrillium Software Corporation) bomo z akustičnimi primeri predstavili, kako spremembe glavnih parametrov digitalnega zvoka vplivajo na zvok in njegove lastnosti. Rezultate teoretičnega in praktičnega dela bomo združili tudi v multimedijski predstavitvi s programskim orodjem Director 6.5 (Macromedia).

Page 6: UNIVERZA V MARIBORU FAKULTETA ZA ...zvoka se odbije od sten sobe in potuje po daljših poteh, kot direkten zvok in tako doseže ušesa nekoliko kasneje (pot B). Odbiti zvoki so tudi

v

DIGITAL SOUND

Keywords: digital sound, sound, hearing, A/D conversion, sampling frequency, quantization, digital audio editing, Dolby

UDK: Abstract: The purpose of the graduation thesis is to give an overview of the digital sound as one of the essential media in multi-media environments. The thesis addresses the following problems related to sound: What is the physical background of the sound generation process? How do human perceive sound? How do we get from analog record of sound to digital – the A/D conversion? What factors should be considered during A/D conversion and what differences occur if these factors are not considered? Furthermore, the prevalence of digital sound in a today’s world is discussed: various media for storing sound recordings, influence of various effects and filters on digital sound. The use of digital audio in a home environment - “home cinema” (Dolby Laboratories) and the connection of Dolby to the analog sound as well as MIDI and SDML standards will be also presented. Apart from the theoretical analysis of digital sound a practical part of the thesis that bases on the use of personal computer as a multi-media tool will be presented. The influence of key parameters of digital sound to the resulting sound and it’s characteristics will be illustrated Using the Cool Edit 96 program (by Syntrillium Software Corporation) for digital audio editing. Results of theoretical and practical part of the thesis will be merged in multi-media demonstration using the toolkit Macromedia Director 6.5 (by Macromedia).

Page 7: UNIVERZA V MARIBORU FAKULTETA ZA ...zvoka se odbije od sten sobe in potuje po daljših poteh, kot direkten zvok in tako doseže ušesa nekoliko kasneje (pot B). Odbiti zvoki so tudi

vi

KAZALO

1. UVOD................................................................................................................. 1

2 DIGITALNI (ANALOGNI) AVDIO........................................................................ 3

2.1 Predstavitev.................................................................................................................... 3 2.1.1 Zvok.......................................................................................................................... 3 2.1.2 Človeško uho .......................................................................................................... 11 2.1.3 Primer pretvorbe zvočnega valovanja v električni signal....................................... 15

2.2 Frekvenca vzorčenja, kvantizacija in ločljivost otipkov .......................................... 17

2.3 Število kanalov ............................................................................................................. 28

2.4 Prepletanje otipkov ..................................................................................................... 30

2.5 Otipki z negativno vrednostjo .................................................................................... 31

2.6 Kodiranje in zgoščevanje ............................................................................................ 31 2.6.1 Standard G.711 (A law in µ law)............................................................................ 36

3. DIGITALNE AVDIO OPERACIJE .................................................................... 39

3.1 Shranjevanje ................................................................................................................ 39

3.2 Digitalni mediji zapisa zvoka...................................................................................... 40

3.3 Poizvedba...................................................................................................................... 51

3.4 Urejanje ........................................................................................................................ 51

3.5 Učinki in filtri............................................................................................................... 52

3.6 Digitalna avdio pretvorba........................................................................................... 53

4. GOVOR............................................................................................................ 54

4.1 Govorna tehnologija.................................................................................................... 54

4.2 Kodiranje govora......................................................................................................... 55

4.3 Sinteza govora.............................................................................................................. 56

5. DOLBY LABORATORIES ............................................................................... 57

5.1 Tehnologije analognega snemanja ............................................................................. 59

5.2 Digitalno avdio kodiranje ........................................................................................... 59

5.3 Stereofonski pojav ....................................................................................................... 63

Page 8: UNIVERZA V MARIBORU FAKULTETA ZA ...zvoka se odbije od sten sobe in potuje po daljših poteh, kot direkten zvok in tako doseže ušesa nekoliko kasneje (pot B). Odbiti zvoki so tudi

vii

5.4 Filmski zvoki ................................................................................................................ 64

5.5 Hišni kino z “ambientimi” zvoki ................................................................................ 65

6. GLASBA .......................................................................................................... 70

6.1 Standard MIDI ............................................................................................................ 70 6.1.1 MIDI sporočila ....................................................................................................... 73 6.1.2 Prednosti in slabosti MIDI...................................................................................... 74

6.2 Standard SMDL........................................................................................................... 75

7. OBDELAVA DIGITALNEGA ZVOKA Z UPORABO PROGRAMSKEGA ORODJA.............................................................................................................. 77

7.1 Snemanje in predvajanje ............................................................................................ 77

7.2 Operacije nad digitalnim zvokom.............................................................................. 79

8. PREDSTAVITEV DIPLOMSKEGA DELA S PROGRAMSKIM ORODJEM MACROMEDIA DIRECTOR................................................................................. 83

8.1 Macromedia Director .................................................................................................. 84

8.2 Umestitev zvoka v multimedijsko predstavitev ........................................................ 87

9. SKLEP ............................................................................................................. 89

10. LITERATURA ................................................................................................ 91

11. PRILOGA....................................................................................................... 94

Page 9: UNIVERZA V MARIBORU FAKULTETA ZA ...zvoka se odbije od sten sobe in potuje po daljših poteh, kot direkten zvok in tako doseže ušesa nekoliko kasneje (pot B). Odbiti zvoki so tudi

1

1. UVOD Zgodovina prve elektronske reprodukcije zvoka sega na konec devetnajstega stoletja, ko je bila razvita za uporabo v telefoniji. V začetku dvajsetega stoletja sta radio in elektronski gramofon še povečala praktičnost uporabe elektronskega zvoka. Po drugi svetovni vojni se je pojavila še televizija, ki je bila vrhunec tehnologije in tudi vplivala na kasnejši svet. Dandanes si ne znamo predstavljati življenja brez televizije ali radija, kaj šele brez računalnika. Televizija se je ohranila in se razvija še danes (visokoločljiva televizija – HDTV1), zasnovani pa so tudi novi sistemi slikovne in zvočne reprodukcijske tehnologije, ki kažejo mnoge prednosti v ceni, kvaliteti in uporabnosti. Novi tehnologiji sta digitalni avdio ter digitalni video. Tehnologija obdelave digitalnega avdia se je tako močno razvila, da lahko doma poslušamo glasbo, gledamo televizijo ali igramo igrice na računalniku, ob tem pa vse zvočne kanale spremljamo v t.i. “surround” zvočnem prostoru (prostoru obkroženim z zvokom). Filme ali televizijski prenos lahko gledamo z visokoločljivo televizijo (čeprav je to v evropskem prostoru redko zaslediti), ki nam prikaže novo digitalno podobo televizije. Poleg zasnove hišnega kina so se močno razvili tudi digitalni mediji – zgoščenke CD (Compact Disc), zgoščenke DVD (Digital Versatile Disc), …

Cilj diplomskega dela je preučiti in pregledno predstaviti ozadje digitalnega avdia, kako analogni format zapisa glasbe pretvorimo v digitalni zapis (A/D pretvorba), katere faktorje moramo pri tem upoštevati in katere razlike se pojavijo ob neupoštevanju le-teh. Nadalje želimo prikazati uporabljenost digitalnega zvoka v današnjem času: različni digitalni mediji shranjevanja, vpliv različnih učinkov in filtrov na digitalni posnetek. Uporaba digitalnega avdia v domačem okolju – “domači kino” (Dolby Laboratories).

Prvo poglavje obravnava osnovne fizikalne zakone povezane z zvokom in osnovnem principu človeškega dojemanja zvočne informacije – uho in sluh.

V drugem poglavju bomo obravnavali postopek A/D pretvorbe analognega formata zapisa zvoka v digitalni format zapisa, pri čemer bomo izpostavili Nyquistov teorem vzorčenja, postopek kvantizacije in kvantizacijsko napako. Predstavili bomo tudi možnost snemanja z več avdio kanali ter vrste in načine kodiranja digitalnega zvoka.

V tretjem poglavju bomo predstavili principe zapisovanja zvoka na pomnilniški medij, katere digitalne medije za zapis zvoka poznamo, uporabljeni metodi pri podatkovnem kodiranju na zgoščenki CD: CIRC2 – kodiranje s shemo za odkrivanje in popravljanje napak s križnim prepletanjem in modulacijo osem na štirinajst (EFM3) – proceduro za zagotavljanje uspešnih prehodov (med utori) pri zapisovanju na CD, operacije in urejanje nad digitalnimi zvokovnimi zapisi.

1 angl. High Definition Television 2 angl. Reed-Solomon Coding 3 angl. Eight to Fourteen Modulation

Page 10: UNIVERZA V MARIBORU FAKULTETA ZA ...zvoka se odbije od sten sobe in potuje po daljših poteh, kot direkten zvok in tako doseže ušesa nekoliko kasneje (pot B). Odbiti zvoki so tudi

2

V četrtem poglavju bomo podali nekaj več informacij o samem govoru, govorni tehnologiji, kodiranju in sintezi govora.

V petem poglavju bomo spoznali tvrdko Dolby Laboratories, njihovo tehnologijo analognega snemanja, principe delovanja odstranjevanja šuma sistemov Dolby, digitalno avdio kodiranje, stereofonski pojav zvoka, filmski zvok in hišni kino – obkrožni (ambientni) zvok4. V šestem, zadnjem poglavju, bomo predstavili osnovne operacijske in simbolne predstavitve zvoka – standard MIDI in standard SMDLTeh šest poglavij nekako zaključuje teoretični del diplomske naloge. Nasledja dva poglavja predstavljata praktični del naloge.

V sedmem poglavju smo opisali, na kakšne načine lahko uporabimo digitalni zvok kot tip medija, uporabljen predstavitvi.

V osmem poglavju pa smo z zvočnimi primeri prikazali, kako vplivajo spremembe glavnih parametrov (frekvenca vzorčenja, ločljivost, število kanalov) na samo produkcijo in reprodukcijo digitalnega zvoka, ter uporabo programskega digitalnega avdio urejevalnika kot način obdelave in predelave zvoka samega.

4 angl. Surround Sound

Page 11: UNIVERZA V MARIBORU FAKULTETA ZA ...zvoka se odbije od sten sobe in potuje po daljših poteh, kot direkten zvok in tako doseže ušesa nekoliko kasneje (pot B). Odbiti zvoki so tudi

3

2 DIGITALNI (ANALOGNI) AVDIO 2.1 Predstavitev 2.1.1 Zvok

Zvok v naravi nastane z razliko tlakov v ozračju (npr. padanje knjige na tla povzroči podtlak nad knjigo in nadtlak pod knjigo). Nastanejo območja nižjega in višjega zračnega pritiska ali zvočno valovanje oz. nihanje zračnih delcev. Akustični zvok, kot npr. zvok bobna, potuje po zraku z zvočnim valovanjem. Ko bobnar udari po bobnu s palico, povzročene vibracije na opnu bobna izmenično stiskajo in redčijo zrak v okolici bobna, kar povzroči zvočno valovanje. To zvočno valovanje potuje po zraku v obliki majhnih valov. Ko prispe valovanje do ušesa, povzroči vibracije membrane med zunanjim in srednjim ušesom, kar zaznavamo kot zvok [5].

Z zvočnim valovanjem se prenaša po prostoru nihanje delcev. Snovni delci ostajajo na mestu in nihajo okrog svojih mirovnih leg, prenašata pa se energija in valovna oblika (faza) valovanja. Pri transverzalnem valovanju potujejo po prostoru hribi in doline (npr. valovanje vode), pri longitudinalnem valovanju (zvok je najbolj pomembno longitudinalno valovanje) pa zgoščine in razredčine. Na sliki 2.1 vidimo primer longitudinalnega valovanja.

Slika 2.1: Primer longitudinalnega valovanja.

Razdalja med dvema sosednjima zgoščinama predstavlja valovno dolžino valovanja (λ). Če imamo valovanje s frekvenco f (s-1) in valovno dolžino λ (m), lahko izračunamo hitrost valovanja c (m/s): λ∗= fc (2.1).

Page 12: UNIVERZA V MARIBORU FAKULTETA ZA ...zvoka se odbije od sten sobe in potuje po daljših poteh, kot direkten zvok in tako doseže ušesa nekoliko kasneje (pot B). Odbiti zvoki so tudi

4

Hitrosti širjenja valovanja so v različnih snoveh zelo različne in so odvisne tudi od načina valovanja, prav tako tudi od temperature (zlasti v plinih). Z višjo temperaturo se povečuje tudi hitrost zvoka – tabela 1.1 prikazuje hitrost zvoka v različnih snoveh [10].

Različne snovi vplivajo na zvok in njegovo širjenje zelo različno. Zvok se lahko med potovanjem skozi zrak odbije in se lahko absorbira (s širjenjem skozi zrak izgublja svojo energijo). Zvok z visokimi frekvencami prej izgubi svojo energijo kot zvok z nizkimi frekvencami. Na prostem se bo zvok širil v vse smeri enako od izvora, medtem ko v zaprtem prostoru pride do odboja zvoka; del zvoka se odbije in ustvari ambientno informacijo, kot npr. odmev [7]. Kot vidimo na sliki 2.2, del zvoka iz zvočnika doseže poslušalca direktno, sicer je pot do bližnjega ušesa krajša kot do drugega (pot A). Nekaj zvoka se odbije od sten sobe in potuje po daljših poteh, kot direkten zvok in tako doseže ušesa nekoliko kasneje (pot B). Odbiti zvoki so tudi nekoliko šibkejši v jakosti kot direkten zvok in se razlikujejo v spektralnem ravnotežju. Kar slišimo, je sestavljeno iz dveh neodvisnih kompozitov direktnega in odbitega zvoka; enega, ki doseže levo uho in enega, ki doseže desno uho. S primerjanjem in analiziranjem teh dveh kompozitov, ali zvočnih signatur, lahko možgani ugotovijo, kje je izvor zvoka in velikost ter akustično karakteristiko prostora [#28]. Tabela 2.1: a) Hitrost zvoka v različnih snoveh. b) Odvisnost hitrosti zvoka v zraku od temperature

Page 13: UNIVERZA V MARIBORU FAKULTETA ZA ...zvoka se odbije od sten sobe in potuje po daljših poteh, kot direkten zvok in tako doseže ušesa nekoliko kasneje (pot B). Odbiti zvoki so tudi

5

Slika 2.2: Direktne (A) in odbite (B) zvočne poti.

Smer prihajajočega zvoka. Človekov slušni sistem lahko ugotovi smer prihajajočega

zvoka na dva načina. Prvi način mu zagotavlja specifično oblikovan slušni organ, ki omogoča, predvsem za višje frekvence, razlikovati smeri “spredaj” in “zadaj”. Drugi način predstavljajo majhne časovne in zvenske razlike, s katerimi obe ušesi zvok sprejemata. Razlika v jakosti zvoka, ki vpade v posamezno uho, je posledica “senčenja – fizične motnje razširjanja” zvoka na drugi strani glave. Pri nizkih frekvencah so razsežnosti glave majhne v primerjavi z valovno dolžino zvoka. Šele od frekvence 200 Hz navzgor lahko ugotovimo razlike, kar potrjujejo tudi smerne karakteristike desnega ušesa za različne frekvence (slika 2.3).

Slika 2.3: Karakteristika desnega ušesa za različne frekvence.

Za visoke frekvence je ta pojav že znaten in privede posledično tudi do spremembe zvena, ki ga zazna zasenčeno uho. V zvenskem spektru ušesa je delež višjih harmonskih frekvenc nižji kot v spektru neposredno vpadnega zvoka. Ušesi zaznata tudi razliko v fazi med obema vpadnima valovanjema. Fazne razlike ni, če vpada zvok od spredaj ali od zadaj, sicer pa bo fazna razlika odvisna od velikosti glave, vpadnega kota in frekvence. Najbolj so fazne razlike izrazite v frekvenčnem področju med 200 in 800 Hz. Ne nazadnje je treba

Page 14: UNIVERZA V MARIBORU FAKULTETA ZA ...zvoka se odbije od sten sobe in potuje po daljših poteh, kot direkten zvok in tako doseže ušesa nekoliko kasneje (pot B). Odbiti zvoki so tudi

6

omeniti še razliko, ki ga zaznavata ušesi pri poševnem vpadanju zvoka. Iz slike 2.4 vidimo, da je ∆s = d·sinα. Za zvok pod kotom α = 60˚ in premerom glave d = 20 cm dobimo zaznavno časovno razliko: ∆t = ∆s/c = (d·sinα)/c = 0,2 m·0,87 / 340 m/s = 0,51 ms (2.2). Zaradi večje občutljivosti za višje frekvence slušni sistem mnogo lažje določa smer za kompleksne zvene kot pa za čiste sinusne tone [10].

Slika 2.4: Primer časovno zakasnjenega signala.

Lom zvoka. Zvok je podrejen lomu, pri katerem se lomi okoli ovire ali razprši skozi

majhno odprtino (slika 2.5). Lom zvoka je povezan z valovno dolžino zvoka. Zvok se lomi (spremeni smer razširjanja) s spremembo temperature, zaradi spremembe hitrosti. Hitrost zvoka v zraku se poveča za 0.6 m/s pri spremembi temperature za 1˚C. Zaradi spremembe hitrosti zvok skrene s poti od toplejših temperatur proti hladnejšim – refrakcija (slika 2.6).

Decibel (dB).Karakteristika zvoka potrebuje mersko enoto, ki bo prilagojena za različno število vrednosti, ki jih srečujemo v električnih in akustičnih sistemih. To je decibel (dB) – enota pri akustiki za logaritmično merjenje različnih nivojev intenzivnosti zvoka, ki se zgleduje po človeškem sluhu. Osnovna definicija decibela je povezana z načinom slabljenja signala z razširjanjem po bakrenem medijuin je definiran z desetiškim logaritmom:

21log10

PPLX = dB (2.3),

kjer sta P1 in P2 npr. vrednosti akustične ali električne moči signala.

Page 15: UNIVERZA V MARIBORU FAKULTETA ZA ...zvoka se odbije od sten sobe in potuje po daljših poteh, kot direkten zvok in tako doseže ušesa nekoliko kasneje (pot B). Odbiti zvoki so tudi

7

Slika 2.5: Lom zvoka.

Slika 2.6: Refrakcija zvoka.

Page 16: UNIVERZA V MARIBORU FAKULTETA ZA ...zvoka se odbije od sten sobe in potuje po daljših poteh, kot direkten zvok in tako doseže ušesa nekoliko kasneje (pot B). Odbiti zvoki so tudi

8

Če postavimo P2 za referenčno vrednost (npr. P1 = 1mW ) in P1 za izhodno vrednost, recimo izhodna moč mikrofona (P2 = 100nW), potem lahko izračunamo nivo moči oz. ojačanje [7]:

Nivo moči dBPP

21log10=

( )

.4041010log101010log10

4

3

7

dBdB

dB

dB

−=−⋅=

=

=

Glasnost. Jakost zvoka povzroča občutek glasnosti. Če je jakost zvoka manjša od jakosti, ki jo imenujemo meja slišnosti, človek zvoka ne zaznava. Meja slišnosti je najnižja pri ferkvaneci 2000 Hz do 3000 Hz, nato pa narašča tako proti nižjim kot proti višjim frekvencam. Če je jakost zvoka večja od jakosti, ki jo imenujemo meja bolečine, občutimo zvok kot bolečino. Tudi meja bolečine je odvisna od ferkvence. Na splošno se nam zde zvoki z enako jakostjo a z različno frekvenco različno glasni. Kot osnovo za merjenje glasnosti so izbrali glasnost zvoka s frekvenco 1000 Hz, enota za glasnost pa je fon.. Glasnost G zvoka s frekvenco 1000 Hz je definirana kot desetkratni desetični logaritem razmerja med jakostjo zvoka (j) in referenčno jakostjo (j0), ki je enaka meji slišnosti: )/log(10 0jjG = fonov, j0(1000 Hz)= 10 –12 W/m2, (2.4). Za zvoke z drugimi frekvencami, ki se nam zde enako glasni kot izbrani zvok pri ferkvenci 1000 Hz, pravimo, da imajo enako glasnost. Tudi jakost zvoka (L) v akustiki pogosto izražamo enako, kot glasnost, ustrezno enoto pa imenujemo decibel dB [8]

Za referenčno vrednost vzamemo vrednost zvočnega toka (j) pri slišnem pragu j0 = 10-

12 W/m2, ter mu postavimo vrednost L = 0. Dražljaj, ki ga čuti naše uho, lahko zapišemo kot razmerje j/j0, občutek (jakost) pa kot logaritem tega razmerja: ( )dBjjL 0/log10= (2.5). Definicija pa ni vezana na kako izbrano frekvenco. Včasih uporabljamo za glasnost in jakosi isto enoto – fon. Tedaj moramo posebej navesti, kaj merimo z njo. Jakost zvoka (gostota energijskega toka) je osnovno definirana kot energija, ki jo valovanje prenese skozi presek 1 kvadratnega metra v 1 sekundi, kar prikazije naslednja enačba:

202

1 scj ⋅⋅⋅= ωρ (2.6)

pri tem je ω=2πf krožna frekvenca, f frekvenca, c hitrost zvoka, ρ gostota snovi in s0 amplituda odmika delov snovi.

Slišni prag je referenčni nivo pri akustiki zvoka in predstavlja zvočni tlak človeškega slušnega praga p0 = 2ּ10-5 Pa (Pa = N/m2) pri frekvenci 1000 Hz. Zvočna jakost nad 140 dB lahko povzroči trajne poškodbe bobniča, ušesu škodljive pa so tudi vse jakosti nad 80

Page 17: UNIVERZA V MARIBORU FAKULTETA ZA ...zvoka se odbije od sten sobe in potuje po daljših poteh, kot direkten zvok in tako doseže ušesa nekoliko kasneje (pot B). Odbiti zvoki so tudi

9

dB. Tabela 2.2 prikazuje jakost nekaterih zvočnih virov. Povprečno človeško uho zaznava še razlike v jakosti zvoka , ki niso manjše od ∆L = 1 dB. Jakost zvoka lahko izrazimo tudi s pomočjo zvočnega tlaka p, ( )dBppL 0/log20= (2.7), kjer je p0 zvočni tlak slišnega praga in p merjeni tlak.

Izraza za jakost zvoka (2.3), (2.5) veljata samo pri frekvenci 1000 Hz, kjer je slušni prag določen z vrednostjo j0 = 10-12 W/m2 oz. p0 = 2ּ10-5 Pa. Pri drugih frekvencah ustrezajo drugemu slušnemu pragu. Zato je bila določena enota za glasnost 1 fon, ki je pri frekvenci 1000 Hz enaka jakosti zvoka 1dB. Tabela 2.2: Jakost nekaterih zvočnih virov.

Vir zvoka L (dB) slušni prag 0

šelestenje lista 10 šepetanje 20

tiktakanje budilke 30 umirjeno govorjenje 40 mirna cesta, pisarna 50

pogovor, klavir 60 prometna cesta 70

avtobus, motorno kolo 80 petje, vpitje 90

pop glasba, strojna tkalnica 100 pnevmatična kladiva 110

letalski motor v razdalji 10 m 120 vojaški top 130

prag bolečine 140 raketni motor 200

Pri drugih frekvencah se glasnost razlikuje od jakosti in je potrebno ustrezne vrednosti odčitati iz diagrama – Fletcherjev diagram. Posamezne krivulje povezujejo točke enake glasnosti tako, kot jih zaznava človeško uho. Fletcherjev diagram in v njem prikazana frekvenčna in jakostna polja, ki ustrezajo slišnemu zvoku, glasbi in govoru, vidimo na sliki 2.7. [10].

Slika 2.7: Fletcherjev diagram.

Page 18: UNIVERZA V MARIBORU FAKULTETA ZA ...zvoka se odbije od sten sobe in potuje po daljših poteh, kot direkten zvok in tako doseže ušesa nekoliko kasneje (pot B). Odbiti zvoki so tudi

10

Omeniti moramo še fazno razliko dveh akustičnih signalov oz. dveh zvokov. Dva signala, identične oblike in amplitude, sta lahko popolnoma različna zaradi njune faze. Če sta bila signala zamaknjena relativno eden na drugega po času, se pojavi fazna razlika. Fazno razliko merimo v kotnih stopinjah – slika 2.8. Dva signala, ki sta fazno premaknjena za določen kot, rezultirata v signalu, ki predstavlja vsoto obeh. Fazna razlika je efekt relativnega časovnega zamika z ozirom na oba signala, bodisi električna bodisi akustična, in lahko spremeni naravo signala (zvoka) oz. celo povzroči popačenje signala (zvoka) [7].

Slika 2.8: Karakteristike faznega zamika signala.

Zvočne pojave glede na časovni potek praviloma razdelimo v štiri skupine:

- zvočni pojavi sinusne oblike, ki jih označujemo s pojmom ton (v naravi je čistih tonov malo).

- sestavljena nihanja, ki jih označujemo s pojmom zven; le-ti vsebujejo ob osnovni frekvenci tudi višje harmonske frekvence (delni toni), ki se razlikujejo med seboj po amplitudi in fazi, od njih pa je odvisen zven (ponavadi govorimo o barvi zvena). Tako lahko ločimo npr. zven klavirja od zvena kitare.

- tretjo skupino uvrščamo šum. Šum sestavljajo harmonske frekvence, ki so v poljubnem medsebojnem razmerju. Število harmonskih frekvenc v šumu je zelo veliko.

- četrto skupino tvorijo poki, ki predstavljajo kratkotrajne zvočne pojavi. Kadar so spremembe zvočnega valovanja periodične in če je frekvenca teh sprememb v področju med 16 in 20.000 Hz, jih lahko zazna tudi človeško uho [10].

Page 19: UNIVERZA V MARIBORU FAKULTETA ZA ...zvoka se odbije od sten sobe in potuje po daljših poteh, kot direkten zvok in tako doseže ušesa nekoliko kasneje (pot B). Odbiti zvoki so tudi

11

2.1.2 Človeško uho Pri procesu zaznavanja zvočne informacije gre predvsem za pretvorbo spremembe pritiska na bobnič zunanjega ušesa, ki je posledica valovanja zraka, v proženje nevronov notranjega ušesa. Človekova govorila in uho so se skozi evolucijo razvijali vzporedno, kjer je vsak sistem pri svojem razvoju upošteval lastnosti drugega [4]. Občutljivost človeškega ušesa je odvisna od frekvence in jakosti zvoka. Slišni obseg se giblje med 20 Hz in 20 kHz in s staranjem upada (povprečje je 16 kHz) [3]. Uho je posebej občutljivo na tista frekvenčna področja govora, ki vsebujejo največ informacije, potrebne za komuniciranje – to je področje od 200 Hz do 5600 Hz [4], čeprav je spektralni razpon govora je od 80 Hz do 12 kHz. Energija je največja pri nizkih frekvencah, nato pa zvišanjem frekvence pada [3]. Poslušalec lahko v tem področju zazna zelo majhne spremembe v časovnih in frekvenčnih značilnosti govorca [4].na sliki 2.9 vidimo akustični spekter človeškega govora in glasbe. Frekvenčne komponente tipičnega govora najdemo med 100 Hz in 7 kH, vendar je večina energije govora koncentrirana pri nižjih frekvencah. Tipični govor ima dinamično območje okrog 25 dB, to je, moč, ki jo producira najglasnejši krik, je lahko do 300 krat večja, kot najtišje šepetanje.

Slika 2.9: Akustični spektrum glasbe in govora.

Zgradba ušesa. Uho je osnovni organ za zaznavanje zvoka. Delimo ga na zunanje,

srednje in notranje uho. Njegovo zgradbo kaže v prerezu slika 2.10. Zunanje uho sestavljata uhelj in sluhovod. Zahvaljujoč svoji značilni obliki lovi uhelj (1) zvok in ga usmerja v sluhovod (2). Oblika uhlja omogoča ugotavljanje smeri prihajajočega zvoka. Uhelj in sluhovod tudi ojačita signale določenih frekvenc, ker imata obliko resonančne cevi.

Sluhovod je dolg približno 2.7 cm pri odraslem človeku in ima premer približno 0.7 cm. Na koncu sluhovoda je bobnič (3), ki deli zunanje uho od srednjega. Je rahlo ovalen in v sredini nekoliko stožčasto izvlečen, kar prav tako preprečuje nastanek lastnih resonanc. V srednjem ušesu so tri pomembne slušne koščice: kladivce, nakovalce in stremence (4). Delujejo kot vzvod, ki prenašajo zvočna nihanja od bobniča k ovalnem okencu (5).

Page 20: UNIVERZA V MARIBORU FAKULTETA ZA ...zvoka se odbije od sten sobe in potuje po daljših poteh, kot direkten zvok in tako doseže ušesa nekoliko kasneje (pot B). Odbiti zvoki so tudi

12

Slika 2.10: Zgradba ušesa.

Iz srednjega ušesa vodi v ustno votlino Evstahijeva cev (6), ki izenačuje zunanji in notranji tlak ter tako ščiti bobnič pred prevelikimi obremenitvami. Cev je normalno zaprta in se odpre samo pri požiranju in zevanju. Ovalno okence deli srednje uho od notranjega ušesa. Njegov bistveni del je zapleteno sestavljen polž – kohlea (7), nekako v velikosti grahovega zrna. Lažje si ga predstavljamo v iztegnjeni obliki (8). V močno poenostavljeno prikazani notranjosti ga delita Reissnerjevo opno (9) in bazilarno opno (10) na dva dela: preddvor – scala vestibuli (11) in bobnična votlina – scala tympani (12), ki ga končuje okroglo okence (17). Polž je napolnjen z limfo, ki se lahko pretaka iz zgornjega dela v spodnji skozi majhno odprtinico – helicotrema (13). Med Reissnerjevo in bazilarno opno je polžev kanal – ductus cohlearis (14). V njem je pod bazilarno membrano Cortijev organ (15) z 20000 do 24000 živčnimi vlakni, ki predstavljajo najpomembnejši del ušesa. Živčna vlakenca pod vplivom zvočnega valovanja v limfi zanihajo, Cortijev organ pa to nihanje pretvori v ustrezne živčne impulze. Od tod vodi snop živcev (18) v možgane.

Čutni organ za zaznavanje gibanja je sestavljen iz treh polkrožnih kanalov (16), ki stojijo pravokotno drug na drugega. Napolnjeni so s tekočino in pretakanje tekočine v enem od njih javlja malim možganom gibanje v določeni smeri [10]. Prehodni pojav. Vsi elementi med bobničem in Cortijevim organom tvorijo mehanski sistem, ki ob prisotnosti zvoka zaniha. Od trenutka, ko vpade zvočni val na mirujoči bobnič, pa vse do takrat, ko zaniha celotni sistem s polno amplitudo, preteče t.i. mehanski prehodni čas (t1). V tem času bobnič zaniha skupaj s slušnimi koščicami, ovalnim okencem in limfo v tolikšni meri, da lahko slušni sistem prepozna vpadajoči zvok, vendar ta čas še ne zadošča za ugotovitev višine tona. Živčni sistem potrebuje namreč še nek čas za prepoznavo frekvence. Imenujemo ga fiziolški prehodni čas (t2). Raziskave so pokazale, da je ta čas obratno sorazmeren s frekvenco nihanja in enak času enega nihaja t2 = 1/f, kjer je f frekvenca nihanja. Oba časa sta grafično prikazana na sliki 2.11 .

Slika 2.11: Prikaz časov prehodnih pojavov mehanskega sistema ušesa.

Page 21: UNIVERZA V MARIBORU FAKULTETA ZA ...zvoka se odbije od sten sobe in potuje po daljših poteh, kot direkten zvok in tako doseže ušesa nekoliko kasneje (pot B). Odbiti zvoki so tudi

13

Medtem ko je fiziološki prehodni čas odvisen od frekvence, mehanski od nje ni močno odvisen. Njegova vrednost je okrog 10 ms. Skupen prehodni čas tp je potemtakem: tp fms /110 += (2.8). Za nizke frekvence je že kar znaten. Pri frekvenci nihanja 50 Hz znaša 30 ms, medtem ko pade pri frekvenci 1000 Hz na vrednost 11 ms [10].

Procesiranje zvočnega signala. Kot smo že opisali, se procesiranje zvoka prične z zaznavanjem valovanja zraka. Zvok ima več značilnosti, ki jih med seboj ločimo. Višina je povezana s frekvenčno vsebino zvočnega signala. Če vsebuje akustični signal nizke frekvence, pravimo, da je nizkofrekvenčen, če pa visoke, pa da je visokofrekvenčni signal. Glasnost je proporcionalna amplitudi valovanja. Barva je v splošnem odvisna le od vrste izvora zvoka. Kot primer omenimo igranje istega tona na različnih instrumentih, pri tem sta lahko višina in glasnost enaki. Zvok se torej razlikuje le po barvi. Prav tako lahko zaznavamo položaj izvora zvoka v prostoru, saj ušesi zaradi medsebojne razdalje sprejemata zvočne signale časovno nekoliko zamaknjeno. To informacijo in različnost amplitud, kjer razliko povzroči odboj zvočnih signalov, uporablja človek za določitev položaja izvora zvoka v prostoru. Človekov slušni sistem lahko zaznava zvočne signale s frekvencami med 20 Hz in 16 kHz oz. 20 kHz. S starostjo se zgornja meja običajno niža. Ločljivost (občutljivost na frekvenčne spremembe) ušesa je v okolici frekvence 1000 Hz okrog 1.5 Hz, z višanjem frekvence pa se ločljivost niža in je pri frekvenci 15 kHz okrog 10 Hz. Zvočni signali s frekvenco, pod 1 kHz ali nad 5kHz, morajo imeti mnogo več energije, da jih lahko zaznamo, kot signali v frekvenčnem območju med tema dvema vrednostma. Slika 2.12 kaže frekvenčne in amplitudne meje zvočnega zaznavanja [4].

Slika 2.12: Frekvenčne in amplitudne meje zaznavanja zvoka.

Page 22: UNIVERZA V MARIBORU FAKULTETA ZA ...zvoka se odbije od sten sobe in potuje po daljših poteh, kot direkten zvok in tako doseže ušesa nekoliko kasneje (pot B). Odbiti zvoki so tudi

14

Kot primer navajamo približna frekvenčna območja nekaterih inštrumentov: - pod 40 Hz = veliki boben - 40 Hz = najnižja nota kontrabasa - 27 Hz do 7,7 KHz = razpon klavirja - 2,5 KHz do 8 KHz = razpon oboe - 1,5 KHz do 8,5 KHz = razpon violine - 16,5 Hz do 11 Khz = razpon cerkvenih orgel [#2]. Zaznavanje glasnosti. V spošnem velja prepričanje, da znaša dinamika zaznavanja

jakosti signala človekovega ušesa 140 dB. Velikokrat vodi ta podatek k zmotnemu razmišljanju, da to pomeni tudi sposobnost hkratnega zaznavanja signalov s tako različnimi jakostmi. Vrednost 140 dB podaja samo zgornjo mejo jakosti, ki jo je uho še sposobno fizično prenesti, ne da bi pri tem prišlo do trajnih poškodb [4]. Kot primer navajamo nekatera približna dinamična območja:

- 10 dB = glasbeno oddajanje na srednjih radijskih valovih, - 40 dB = frekvenčno moduliran radijski signal (B=15 kHz) - 60 dB = dober sistem gramofon/ročica/glava - 96 dB = dober CD predvajalnik, snemanje CD plošč - 100 dB = poln orkester v tihi koncertni dvorani [#2].

Velikost dejanske dinamike ušesa – hkratnega zaznavanja dveh ali več signalov z različnimi jakostmi je določena s krivuljami maskiranja signalov, katerih oblika je odvisna od jakosti kot tudi od frekvenčnega območja signalov. Če upoštevamo, da se pri jakosti signala 80 dB sproži tudi akustični refleks5, lahko rečemo, da dejanska dinamika ušesa v povprečju ni večja od 60 dB. Raziskave so pokazale, da človekov slušni sistem ni enako občutljiv na zvočne signale, ki prihajajo iz različnih smeri, in da je občutljivost v posameznih smereh odvisna od frekvence signala. V splošnem velja, da jakost tona, npr. 80 dB, povzroči v frekvenčnem področju med 1-3 kHz občutek večje glasnosti kot pa v področju med 0.02 in 1 kHz. Krivulja, ki podaja jakost tona, potrebnega za zaznavanje signala z enako jakostjo v frekvenčnem področju med 0.02 in 1 kHz, ima za jakost med 20 in 50 dB naklon 60 dB na dekado, z višanjem jakosti tona pa naklon krivulje pada. Slika 2.13 podaja odvisnost enake glasnosti tona od jakosti signala in njegove frekvence. Vidimo, da je uho najobčutljivejše v frekvenčnem področju med 3 in 4 kHz. To je posledica dejstva, da predstavlja sluhovod resonator z resonančno frekvenco okrog 3.5 kHz, zaradi tega se signal v tem področju dodatno ojači. Ker so stene ušesnega kanala mehke, je resonančna karakteristika položna; to povzroči ojačitev signala v širšem frekvenčnem področju – od 2 do 5 kHz. Višina tona. Pri zaznavanju zvočnih signalov ima pomembno vlogo tudi višina tona. Pri njenem zaznavanju je podobno, kot pri vseh doslej obravnavanih parametrih, prisotna nelinearnost. Ta se v prvi vrsti kaže v odnosu višine tona in frekvence signala. Dvakrat višja ali nižja zaznana višina tona od primerjalne namreč ne pomeni nujno tudi dvakrat manjše ali večje frekvence signala. Do vrednosti frekvence 500 Hz velja skoraj linearen odnos med zaznano višino tona in njegovo frekvenco. Pri višjih frekvencah pa postaja ta

5 Krčenje mišic srednjega ušesa povzroči spremembo osi pomikanja sistema koščic. To ima za posledico zmanjšan pritisk stremenca na ovalno okence notranjega ušesa pri isti jakosti vzbujalnega signala.

Page 23: UNIVERZA V MARIBORU FAKULTETA ZA ...zvoka se odbije od sten sobe in potuje po daljših poteh, kot direkten zvok in tako doseže ušesa nekoliko kasneje (pot B). Odbiti zvoki so tudi

15

odnos izrazito nelinearen. Tako je višina tona pri frekvenci 1300 Hz (1050 mel6) za polovico manjša od višine, zaznane pri tonu frekvence 8 kHz (2100 mel).

Slika 2.13: Krivulje enakih glasnosti tonov.

Slika 2.14 prikazuje odnos med višino tona, ki jo povzroči signal s frekvenco f1, in signalom, kjer je višina tona enaka polovici vrednosti višine tona signala s frekvenco f1 [4].

Slika 2.14:Razmerje med frekvenco signala in višino tona.

2.1.3 Primer pretvorbe zvočnega valovanja v električni signal

Edini način zajetja zvoka na magnetni trak ali na digitalni medij je pretvorba zvočnega

valovanja v električni signal s pomočjo ustreznega vmesnika (npr. mikrofona). Zvočno valovanje, kot npr. udarec po bobnu (slika 2.15), lahko pretvorimo v električni signal s pomočjo magnetnega mikrofona.

Mikrofon pretvori akustično energijo (zvočno valovanje) preko membrane v električno energijo.V tem primeru zvočni valovi padejo na premikajočo se membrano v mikrofonu, kar povzroči mehansko premikanje membrane enakomerno z zvočnimi valovi.

6 Mel je enota za razmerje višine tonov.

Page 24: UNIVERZA V MARIBORU FAKULTETA ZA ...zvoka se odbije od sten sobe in potuje po daljših poteh, kot direkten zvok in tako doseže ušesa nekoliko kasneje (pot B). Odbiti zvoki so tudi

16

Slika 2.15:Pretvorba zvočnih valov v analogne signale.

Na membrano je pritrjena tuljava, ki je ovita okoli jedra magneta. S tem, ko se membrana premika, se premika tudi tuljavica v magnetnem polju, kar povzroči induciranje napetosti v žici. Tako dobimo električni signal, ki je analogen zvočnemu valovanju, oz. akustičnemu zvoku. Za tvorjenje zvoka uporabimo zvočnik, ki deluje obratno, kot mikrofon. Ko steče tok skozi tuljavico v magnetnem polju, povzroči premikanje tuljavice in tudi membrane, ki je pritrjena na tuljavico. Membrana tako zgosti in redči zrak okoli nje in tako dobimo zvočno valovanje – zvok [5].

V sodobnem svetu se poleg analognih avdio zvokov pojavljajo tudi digitalni avdio zvoki. Digitalni avdio kot zvrst medija zasledimo na dveh glavnih področjih:

• v telekomunikacijah, na področju digitalne telefonije, in • v industriji zabavne elektronike, kjer se uporablja množica digitalnih avdio

zapisov, med katerimi je najbolj razširjena zgoščenka CD-DA7.

Digitalni avdio tvorimo v procesu vzorčenja zveznega analognega signala, ki ga generira izvor zvoka. Na vhod analogno-digitalnega pretvornika (A/D pretvornika) vodimo zvezni signal, ki ustreza analogni signalni predstavitvi zvoka (iz mikrofona ali drugega vira). A/D pretvornik po otipanju zveznega signala (dobimo PAM8 - impulzno amplitudno moduliran signal) kvantizira posamezne vzorce (dobimo PCM9 - impulzno kodno modulacijo) in jih glede na kvantizacijske nivoje (2n, n je število kvantizacijskih nivojev) digitalno zakodira. Tako pridobljeni digitalni avdio signal pretvorimo nazaj v analognega z obratnim postopkom A/D pretvorbe – digitalno-analognim pretvornikom (D/A pretvornik), ki ga vežemo na ojačevalnik in zvočnike.

Med glavne ključne parametre, s katerimi lahko vplivamo na kvaliteto in kakovost digitalnega avdia, bomo obravnavali frekvenco vzorčenja, ločljivost otipkov, kvantizacijo, število kanalov (sledi), prepletanje in kodiranje [2].

7 angl. Compact Disc Digital Audio 8 angl. Pulse Amplitude Modulation 9 angl. Pulse Code Modulation

Page 25: UNIVERZA V MARIBORU FAKULTETA ZA ...zvoka se odbije od sten sobe in potuje po daljših poteh, kot direkten zvok in tako doseže ušesa nekoliko kasneje (pot B). Odbiti zvoki so tudi

17

2.2 Frekvenca vzorčenja, kvantizacija in ločljivost otipkov Kadar želimo pretvoriti analogni signal v digitalnega, ga moramo usmeriti v A/D pretvornik, v katerem se izvršita dva glavna procesa pretvorbe analognega signala v digitalnega. To sta vzorčenje in kvantizacija. Tema dvema pojmoma se bomo v tem poglavju bolj posvetili, saj sta ključna procesa pri tvorjenju digitalnega zvoka.

Analogni signal lahko zavzema poljubne amplitudne ali časovne vrednosti, medtem ko pri digitalnem signalu tako čas kot amplituda zavzemata le določene (diskretne) vrednosti. Digitalni signal lahko predstavimo z nizom števil, kar pomeni, da moramo pri pretvorbi analogni signal najprej vzorčiti, prebrane vrednosti pa moramo s pomočjo kvantizacije pretvoriti v diskretne vrednosti.

Najprej se lotimo časovnih vrednosti analognega signala z vzorčenjem signala. Vzorčenje je proces, pri katerem jemljemo vzorce amplitude analognega signala v enakomernih časovnih intervalih – razmikih. Slika 2.15 prikazuje različne frekvence vzorčenja.

Slika 2.15: Primeri različnih frekvenc vzorčenja

Razlika med časovnimi intervali vzorčenja signala določa frekvenco vzorčenja. Dobljeni (časovno diskretni) vzorci imajo analogne (zvezne) amplitudne vrednosti in predstavljajo amplitudo analognega signala v točno določenem časovnem trenutku. Signal, ki se nahaja med dvema vzorcema je izgubljen [7].

Kadar vhodni analogni signal peljemo skozi nizko pasovni filter, lahko teoretično vzorčimo signal tako, da ni nobene izgube informacij med vhodnim glajenim analognim signalom in izhodnim vzorčenim signalom. S stališča vzorčenja ta signal ni približek vhodnemu signalu, ampak ekvivalent vhodnemu signalu, če le zadostimo Nyquistovim kriterijem. Nyquistov teorem vzorčenja definira, da je mogoče vzorčen signal

Page 26: UNIVERZA V MARIBORU FAKULTETA ZA ...zvoka se odbije od sten sobe in potuje po daljših poteh, kot direkten zvok in tako doseže ušesa nekoliko kasneje (pot B). Odbiti zvoki so tudi

18

rekonstruirati brez napak (informacija o signalu se ohranja), če ga vzorčimo s frekvenco, ki je najmanj dvakrat višja od najvišje v vzorčenem signalu vsebovane frekvence pri vseh ohranjenih atributih signala v trenutkih vzorčenja [7]. Princip vzorčenja: Vzorčenje signala u1(t)je postopek, ki zamenja ta signal z drugim signalom u2(t), za katerega velja, da je:

- v trenutni vrednosti za kratek čas τ enak u1(t), pri čemer se trenutne vrednosti pojavljajo s frekvenco fe, ki se imenuje frekvenca vzorčenja.

- Izven vseh trenutkov enak 0. Slika 2.16 prikazuje, kako signal u1(t)sekamo s stikalom, ki se periodično aktivira s frekvenco fe, in vsakokrat ostane sklenjeno za čas τ. Vzorčenje je idealno takrat, ko gre širina impulzov τ proti 0. V praksi pa poznamo samo impulze z neko končno širino τ. Signal u2(t) lahko obravnavamo kot produkt signala u1(t) in funkcije vzorčenja e(t), ki je periodično zaporedje pravokotnih impulzov s časom trajanja τ.

Slika 2.16: Princip vzorčenja.

Če uporabimo Fourier-jevo transformacijo na pravkar opisan zmnožek v časovnem prostoru, dobimo konvolucijski zmnožek v frekvenčnem prostoru U2(f)=U1(f)∗E(f) (2.9) E(f) predstavljaspekter funkcije vzorčenja, U1(f) predstavlja spekter izhodiščnega signala v osnovnem obsegu, za katerega predpostavljamo, da je uniformen v frekvenčnem pasu od 0 do f1max. Rezultat enačbe prikazuje slika 2.17.

Page 27: UNIVERZA V MARIBORU FAKULTETA ZA ...zvoka se odbije od sten sobe in potuje po daljših poteh, kot direkten zvok in tako doseže ušesa nekoliko kasneje (pot B). Odbiti zvoki so tudi

19

Slika 2.17: Prikaz rezultata konvolucijskega zmnožka.

Kaj opazimo?

- Osnovni pas nastopa v spektru vzorčenega signala z amplitudo, ki je zmanjšana za faktor τ/Te, kar je posledica komponente funkcje vzorčenja pri f=0, (τ/Te).

- Kot posledica konvolucijskega produkta se pojavijo dvojice frekvenčnih pasov, podobnih osnovnemu pasu, vendar zamaknjene, razporejene okoli mnogokratnikov frekvence vzorčenja vendar tako, da je en pas invertiran.

- Velikost teh pasov je podana s funkcijo sinπτf/πτf v točkah f=nfe, ki imajo prvo ničlo pri f=1/τ.

- Če je π <<Te, imajo vsi prvi pari bočnih pasov in osnovnega pasu približno isto amplitudo, ki je enaka amplitudi izhodiščnega signala, pomnoženi s τ/Te.

Če je f1max ≥fe/2 se bočni pasovi prekrivajo, kar pripelje po pojava prekrivanja pasov10- z zelo hudimi posledicami za razpoznavnost informacije, ki jo signal nosi (slika 2.18). Zato je nujno, da se primarni signal frekvenčno omeji s predhodnim filtriranjem, torej pred vzorčenjem, tako da ne vsebuje nobene komponente s f ≥fe/2. ker seveda idealnih filtrov ne poznamo, imamo vedno opraviti s prekrivanjem, čeprav zelo blagim [12]. Teorem vzorčenja tako postavlja najnižjo mejo pri izbiri frekvence vzorčenja tudi v praksi. Avdio signal, ki ima frekvenčni razpon od 0 Hz do 20 kHz, bi teoretično lahko zahteval frekvenco vzorčenja 40 kHz za pravilno digitalno pretvorbo le, če bi z nizkim pasovnim filtrom “porezali” vse frekvence, ki bi presegale polovico frekvence vzorčenja, to je 20 kHz. Nizko pasovni filter potrebujemo tudi na izhodu digitalnega avdio sistema, da nam “poreže” visoke frekvence, ki so bile ustvarjene pri pretvorbi. Filter nam zgladi stopničasti efekt v rekonstruiranem signalu originalnega analognega signala. Postopek je ponazorjen na sliki 2.19.

10 angl., aliasing

Page 28: UNIVERZA V MARIBORU FAKULTETA ZA ...zvoka se odbije od sten sobe in potuje po daljših poteh, kot direkten zvok in tako doseže ušesa nekoliko kasneje (pot B). Odbiti zvoki so tudi

20

Slika 2.18: Primer upoštevanja in neupoštevanja Nyquistovega teorema

Slika 2.19: Diskretno časovno vzorčenje – pasovno omejen signal

je lahko vzorčen in rekonstruiran brez izgub.

Pojavi se vprašanje, povezano s teoremom vzorčenja: Kaj se zgodi, če je frekvenca vzorčenja točno dvakrat višja od najvišje frekvence vsebovane v signalu – predstavlja t.i. kritično mejo? Opazimo, da lahko analogni avdio signal z nizko frekvenco enostavno vzorčimo, ker pride na eno periodo veliko vzorcev. Če pa višamo frekvenco vzorčenega signala, so periode krajše in imamo čedalje manj vzorcev na periodo. Ko pridemo do robnega pogoja, kjer je frekvenca vzorčenega signala enaka polovici frekvence vzorčenja,

Page 29: UNIVERZA V MARIBORU FAKULTETA ZA ...zvoka se odbije od sten sobe in potuje po daljših poteh, kot direkten zvok in tako doseže ušesa nekoliko kasneje (pot B). Odbiti zvoki so tudi

21

nastopi pojav t.i. kritične frekvence vzorčenja. Imamo samo dva vzorca na periodo, vendar pa lahko tudi dva vzorca predstavljata periodo. Vzemimo npr. sistem vzorčenja s frekvenco vzorčenja 40 kHz in vhodni sinusni avdio signal s frekvenco 20 kHz, kot je prikazano na sliki 2.20.

Slika 2.20: Sinusni signal s frekvenco 20kHz, vzorčen s 40kHz.

Dobimo dva vzorca na periodo, kar bi nam predstavljalo pravokotni signal s frekvenco 20 kHz, kar pa ni niti malo podobno vhodnemu signalu. Kot pa vemo, je pravokotni signal sestavljen iz več harmonskih frekvenc (Fourierjeva analiza periodičnih signalov); sinusnih signalov s frekvencami 20 kHz, 60 kHz, 100 kHz, 140 kHz,180 kHz in tako dalje, kar prikazuje naslednja enačba:

∑∞

=

=,1

)2sin(4)(k k

kftAts ππ

(2.10)

pri čemer vzamemo za ka samo lihe člene in kjer f predstavlja frekvenco signala. Na izhodu digitalnega avdio sistema nam nizko pasovni filter poreže vse višje frekvence, kot so bile na vhodu (20 kHz). Vsi višji harmoniki so odstranjeni, ostane nam le prvi harmonik s frekvenco 20 kHz, kar nam predstavlja enak signal, kot je bil na vhodu. Vemo, da je bil na vhodu pravilen sinusni signal, saj nam je na vhodu nizko pasovni filter prav tako porezal visoke frekvence, da smo dobili pravilen signal. Kot vidimo, je tudi pri kritični frekvenci vzorčenja teorem vzorčenja veljaven. Bilo bi pravilno, če rečemo, da bi večje frekvence vzorčenja dovolile snemanje in reprodukcijo večjih frekvenc. Toda dani kriterij pasovne širine avdio frekvenc (20 kHz) določa, katere frekvence so uporabljene pri avdio tehniki (zaradi občutljivosti človeškega ušesa) in višje frekvence ne bi povečale

Page 30: UNIVERZA V MARIBORU FAKULTETA ZA ...zvoka se odbije od sten sobe in potuje po daljših poteh, kot direkten zvok in tako doseže ušesa nekoliko kasneje (pot B). Odbiti zvoki so tudi

22

natančnosti reprodukcije, ker mi tega ne bi zaznali. Proizvajalci so izbrali frekvenco vzorčenja 44.1 kHz za zgoščenko CD-DA.

Pokazali smo, da je vzorčenje lahko brezizgubno le, če zadostimo določenim pogojem. Če signala ne filtriramo z nizko pasovnim filtrom (aliasing filter), lahko pride do neželenega efekta prekrivanja – “aliasing” (slika 2.18). Visoke frekvence, ki bi se pojavile v signalu, ne bi bile pravilno kodirane (preslikane). Posledica izgube informacije je signal, ki se od vhodnega lahko bistveno razlikuje, zato pred vsakim vzorčenjem signal vedno filtriramo z nizko prepustnim filtrom – aliasing filter. Prekrivanje je torej posledica neupoštevanja teorema vzorčenja. Nyguist je pokazal, da mora biti najvišja frekvenca v vzorčenem signalu vsaj polovico manjša od frekvence vzorčenja. Če to ne drži, se pojavi prekrivanje. Ko višamo frekvenco vzorčenega signala, se število vzorcev na periodo manjša. Slednje je prikazano na sliki 2.21.

Slika 2.21: Nepravilno rekonstruirani signali (prekrivanje signalov).

Ko dosežemo polovico frekvence vzorčenja, dobimo le še dva vzorca na periodo, kar je kritična meja (na sliki primer B). Če vzorčimo še višje frekvence, se bo vzorčenje nadaljevalo na isti frekvenci vzorčenja, vendar spremenljiva amplituda vzorcev bo dala lažno informacijo in rekonstruiran signal bo drugačen od originala (razlaga v frekvenčnem prostoru-slika 2.18).Recimo, da je S frekvenca vzorčenja in F frekvenca signala, ki je višja od polovice vzorčene frekvence, potem se ustvari nova frekvenca Fa po enačbi:

FSFa −= (2.11). Npr., imamo frekvenco vzorčenja S = 44 kHz in vzorčimo signal s frekvenco F = 36 kHz, kot vidimo na sliki 2.22.

Page 31: UNIVERZA V MARIBORU FAKULTETA ZA ...zvoka se odbije od sten sobe in potuje po daljših poteh, kot direkten zvok in tako doseže ušesa nekoliko kasneje (pot B). Odbiti zvoki so tudi

23

Slika 2.22: Primer podvzorčenja signala.

Iz dobljenih vzorcev dobimo po izhodnem nizko pasovnem filtru 8 kHz signal, originalni 36 kHz signal pa bo izginil.

Da bi dobili pravilno rekonstrukcijo signala iz vzorčenega, moramo torej zadovoljiti teoremu vzorčenja; potrebni so vhodni filter (t.i. preprečevalno-prekrivalni (anti-aliasing) filter), vzorčenje po Nyquistovem teoremu vzorčenja in izhodni filter – slika 2.23.

Slika 2.23: Blok shema A/D in D/A pretvorbe.

Idealni filter, kot je prikazan na sliki 2.24, naj bi imel pravokotno obliko in neskončno

slabljenje (na robovih frekvenc filtra). Vendar idealnega filtra ni mogoče narediti, lahko se mu samo približamo. Idealni filter bi naj imel neskončno strmino in neskončno dušenje.

Slika 2.24: Karakteristika nizko - pasovnega filtra

Page 32: UNIVERZA V MARIBORU FAKULTETA ZA ...zvoka se odbije od sten sobe in potuje po daljših poteh, kot direkten zvok in tako doseže ušesa nekoliko kasneje (pot B). Odbiti zvoki so tudi

24

Vendar pa v praksi strmina prehoda ni idealna, prav tako filter ni načrtovan, da bi zagotavljal neskončno dušenje, temveč le dušenje do amplitudnega nivoja, ki je manjši od amplitudne ločljivosti analogno/digitalnega sistema. Omejena ločljivost zagotavlja, da komponente izven prepustnega pasu filtra niso "digitalizirane" (oz. imajo amplitudno vrednost 0) - ergo višje frekvence se filtrirajo. In če ne prepuščamo višjih frekvenc v sistem vzorčenja, ne pride do “prekrivanja” [7].

Ko smo dobili amplitudne vzorce analognega signala, pride na vrsto kvantizacija. Pojem kvantizacije se nanaša na diskretizacijo zveznega analognega signala (časovnih in amplitudnih vrednosti) v množico digitalno zakodiranih vrednosti – otipkov. Število otipkov je pogojeno s frekvenco vzorčenja, vendar sta izbira intervala vzorčenja in način kodiranja poljubna [2]. Med postopkom vzorčenja analognega signala je potrebno nepretrgoma spreminjajočo se amplitudo aproksimirati z diskretnimi vrednostmi. Medsebojni vpliv frekvence vzorčenja in kvantizacije je prikazan na sliki 2.25 [7]. Pravilno vzorčenje pasovno omejenega signala je brezizgubni proces, izbira amplitudne vrednosti signala pa to ni. Analogni signal ima lahko neskončno amplitudno vrednost, mi pa lahko izbiramo samo med končnim številom vrednosti; vrednost lahko samo približamo. Zaradi omenjenega postopka vnašamo napako, ki jo imenujemo kvantizacijska napaka. Kvantizacijska napaka predstavlja razliko med dejansko amplitudo vzorčenega signala in digitalnim približkom [2]. Število kvantizacijskih nivojev (N) v binarnem sistemu glede na število kvantizacijskih bitov na besedo (n) je:

nN 2= (2.12).

Število bitov na besedo oz. številu bitov na otipek pravimo ločljivost otipkov. Če imamo 8 bitno besedo (ločljivost otipka je 8), dobimo 256 razdelkov (nivojev), za 16 bitno besedo pa 65536 razdelkov. Več bitov na besedo imamo, boljši je približek, vendar vedno obstaja kvantizacijska napaka, saj smo omejeni s končnim številom vrednosti in ne moremo nikoli točno doseči neskončne vrednosti amplitude analognega signala. Večina proizvajalcev se je odločila, da ločljivost otipka s16 biti zadovoljivo ustreza reprodukciji avdio zvoka.

Kot smo že rekli, je kvantizacijska napaka razlika med dejansko amplitudo vzorčenega signala in digitalnim približkom, to je izbranim kvantizacijskim nivojem, kot vidimo na sliki 2.26.V trenutku vzorčenja, mora biti amplitudna vrednost določena z najbližjim kvantizacijskim nivojem. V najboljšem primeru lahko amplitudne vrednosti sovpadajo s kvantizacijskim nivojem (otipka 11 in 12 na sliki 2.26), v najslabšem primeru je amplitudna vrednost ravno na sredini med dvema nivojema (otipek 1 na sliki 2.26). Kvantizacijska napaka je tako ± 1/2 razdelka kvantizacije (± 1/2Q) v trenutku vzorčenja [7].

Page 33: UNIVERZA V MARIBORU FAKULTETA ZA ...zvoka se odbije od sten sobe in potuje po daljših poteh, kot direkten zvok in tako doseže ušesa nekoliko kasneje (pot B). Odbiti zvoki so tudi

25

Slika 2.25: Primeri različne frekvence vzorčenja in različnega števila kvantizacijskih

nivojev.

Slika 2.26: Kvanizacijska napaka pri vzorčenju.

Page 34: UNIVERZA V MARIBORU FAKULTETA ZA ...zvoka se odbije od sten sobe in potuje po daljših poteh, kot direkten zvok in tako doseže ušesa nekoliko kasneje (pot B). Odbiti zvoki so tudi

26

V sistemu, ki uporablja n bitno ločljivost, imamo 2n kvantizacijskih nivojev. To pomeni, da bo maksimalni amplitudni razpon sinusoide signala zasedel skoraj vse nivoje (2n –1Q) in efektivna vrednost amplitude bo ta vrednost deljena z √2. Kvantizacijska napaka ima amplitudo 1/2Q, kar je ekvivalentno efektivni vrednosti kvantizacijskega šumaQ/√12. Tako ostane razmerje signal/ kvantizacijski šum (SNR11) za velike signale pri enaki kvantizacijski napaki nespremenjeno in je enako

SNR=

šuma jskegakvantizaci vrednost efektivna

signala amplitude maksimalne vrednost efektivnalog20 10 =

=

12/2/)12(

log20 10Q

Qn

=

= ( )( ) =−×=−× dBdB n

n

126log202

)12(12log20 1010

=+=

×= dBndBn

26log202log20

262log20

dBn 76.102.6 += (2.13).

Kvantizacija z ločljivostjo 16 bitov ima potem razmerje signal/kvantizacijsko popačenje (šum) enak 98.08 dB [12]. Pri rekonstrukciji signala v analogno obliko se kvantizacijska napaka zrcali kot popačenje signala, posledica popačenja pa je izguba kakovosti rekonstruiranega signala.

Po vzorčenju dobimo stopničasti signal u2(t), ki je posledica postopka vzorčenja vezja za vzorčenje (vzorčenje z zadrževanjem12). Ker bi bilo zelo težko primerjali analogni signal z njegovo rekonstruirano vrednostjo na izhodu demodulatorja, kvantizacijsko popačenje definiramo kot razliko med signaloma u2(t) na izhodu vezja za vzorčenje in signalom u*

1 (t) na izhodu demodulatorja: (t) u)( 1

*2 −= tuuq (2.14).

Primer prikaza postopka kvantiziranja s kvantizacijskim popačenjem prikazuje slika 2.27 [3].

Obstaja več načinov kvantizacije. Najbolj preprost način kvantizacije je linearna kvantizacija (imenujemo jo tudi uniformna kvantizacija). Širina kvantizacijskih intervalov – kvantizacijski korak – je enaka (∆ = konstanta) in kvantizacijski intervali so ekvidistantni. Pri nelinearni kvantizaciji (neuniformna kvantizacija) razmiki med posameznimi otipki niso ekvidistantni. Z logaritmično kvantizacijo (najbolj razširjena nelinearna kvantizacija) so intervali z nizko amplitudo kvantizirani bolj podrobno – z manjšim kvantizacijskim korakom kot tisti pri visokih amplitudah. Rezultat postopka nelinearne kvantizacije je večja občutljivost pri nizkih amplitudah. Primer obeh vidimo na sliki 2.28.

11 angl. signal to noise ratio 12 angl. Sample and Hold

Page 35: UNIVERZA V MARIBORU FAKULTETA ZA ...zvoka se odbije od sten sobe in potuje po daljših poteh, kot direkten zvok in tako doseže ušesa nekoliko kasneje (pot B). Odbiti zvoki so tudi

27

Slika 2.27: Prikaz postopka kvantiziranja.

Slika 2.28: Primer linearne in nelinearne kvantizacije.

Na splošno zagotavljata nelinearna kvantizacija in predvsem logaritemska boljšo kakovost avdio signala kot linearna pri isti ločljivosti otipkov. Izkaže pa se, da je linearna kvantizacija učinkovitejša predvsem pri filtriranju in preoblikovanju digitalnih avdio signalov, saj je v tem primeru tehnika digitalnega procesiranja signalov preprostejša (aritmetične operacije) [2].

Celotni proces pretvorbe analognega signala v digitalnega in nazaj v analognega je prikazan na sliki 2.29.

Page 36: UNIVERZA V MARIBORU FAKULTETA ZA ...zvoka se odbije od sten sobe in potuje po daljših poteh, kot direkten zvok in tako doseže ušesa nekoliko kasneje (pot B). Odbiti zvoki so tudi

28

Slika 2.29: Prikaz procesa pretvorbe analognega signala v digitalnega in obratno.

2.3 Število kanalov Zvočni signal lahko posnamemo in nato uporabimo in predvajamo na enem kanalu (mono), lahko na dveh kanalih (stereo), nekatere splošno namenske naprave uporabljajo po štiri kanale (kvadrofonija), hišni kino uporablja 5 kanalov oz. 6 (Dolby 5.1), profesionalne zvočne naprave pa uporabljajo 16, 32 ali več kanalov. Pri običajnih magnetofonih in kasetofonih se uporablja magnetofonski (magnetni) trak dvakrat – enkrat na vsako stran predvajanja. Zato mora biti magnetna glava postavljena ekscentrično (slika 2.3-a). Hkratno snemanje na več kanalih zahteva tudi večje število vzporedno nameščenih magnetnih glav. Najbolj enostaven je dvokanalni magnetofon, ki omogoča stereofonsko snemanje in reprodukcijo. Primer (slika 2.30-b) kaže ustrezno namestitev dveh glav višine 1,90 mm. V tem primeru lahko še vedno uporabimo vsak trak monofonsko dvakrat, v vsaki smeri po

Page 37: UNIVERZA V MARIBORU FAKULTETA ZA ...zvoka se odbije od sten sobe in potuje po daljših poteh, kot direkten zvok in tako doseže ušesa nekoliko kasneje (pot B). Odbiti zvoki so tudi

29

enkrat. Za dvokanalni posnetek pa uporabimo trak le v eni smeri. Dvokanalni zapis v obe smeri zahteva drugačno postavitev glav (slika 2.30-c). Pri nespremenjeni širini traku (6,35 mm) morajo biti višine glav že znatno nižje (1,09 mm). Nadaljnje nižanje glav ne pride več v poštev, zato je treba za povečanje števila kanalov uporabiti širši trak.

Slika 2.30: Fizične mere (mm) različnih magnetofonskih trakov in postavitev glav.

Na skicah sta podana npr. 4-kanalni zapis na traku širine 12,7 mm (slika 2.27-d) in 8-kanalni zapis na traku širine 25,4 mm (slika 2.30-e). Za večje število kanalov uporabljamo še širše trakove. Primer (slika 2.30-f) kaže 16-kanalni zapis na traku širine 50,8 mm in primer (slika 2.30-g) 24-kanalni zapis na enakem traku. Obstajajo tudi 32-kanalne naprave, pri katerih je širina steze okrog 1 mm. To povečuje težave pri izdelavi magnetnih glav, poleg tega pa se pojavlja tudi presluh. To je pojav, ko se zaradi ozkega vmesnega prostora 'sliši' zapis ene steze na sosednji. Zato naprave z 32 stezami niso standardizirane. Pri zahtevi po večjem številu stez se uporablja kombinacija dveh večkanalnih naprav, npr. dveh 24-kanalnih. Pri tem je potrebno izdvojiti po eno stezo za medsebojno sinhronizacijo. V praksi lahko naletimo pri delu z magnetofonom na naslednje težave:

- šum zaradi različnih nečistoč na magnetni sledi, - učinek kopiranja zaradi tesnega naleganja tankih trakov na kolutu, - ostanki starega posnetka zaradi slabega brisanja, - presluh med sosednjima stezama zaradi premajhne razdalje med njima, ali zaradi

premaknjene magnetne glave, - šibka jakost reprodukcije zaradi zamazane reže v magnetni glavi in - zavijanje tona zaradi neenakomerne hitrosti traku (potresavanje časovne baze13).

13 angl. jitter

Page 38: UNIVERZA V MARIBORU FAKULTETA ZA ...zvoka se odbije od sten sobe in potuje po daljših poteh, kot direkten zvok in tako doseže ušesa nekoliko kasneje (pot B). Odbiti zvoki so tudi

30

Vzrok potresavanju je lahko ekscentričnost pogonske osi, neenakomeren tek motorčka, prevelika elastičnost traku ali podrsavanje traku na pogonski osi zaradi nečistoče (mast, olje) ali premajhnega pritiska gumijastega tlačnega kolesca [10]. V kontekstu števila avdio kanalov se srečujemo z različnimi pojmi: mono(fonija), stereo(fonija) in kvadro(fonija). V nadaljevanju bomo nekatere pojasnili.

Monofonija (gr. monos - sam, enojen; gr. phone - glas) imenujemo običajen način enokanalne reprodukcije. Zvočne informacije so posnete z enim mikrofonom in preko enega ojačevalnika prenesene na eno stezo magnetofona ali vtisnjene na eno brazdo gramofonske plošče. Monofonsko reprodukcijo poslušamo iz enega samega vira - zvočnika ali iz več zvočnikom, ki oddajajo enake zvočne informacije. Pri tem nimamo prostorskega vtisa, saj vsi zvoki prihajajo iz istega vira.

Stereofonija (gr. stereos - prostoren) ali prostorsko poslušanje zvoka je predvajanje zvoka z zelo malo popačenji. Pri stereofonskem snemanju uporabljamo dva mikrofona, in zvočne informacije se snemajo na dveh ločenih tonskih (monofonskih) kanalih (kanala sta ločena tudi pri reprodukciji). Vsak kanal predvaja en posnetek. Stereo naprava za reproduciranje je sestavljena iz dveh popolnoma enakih ojačevalnikov in pripadajočih skupin zvočnikov. Pomembno je, da sta zvočnika ustrezno prostorsko nameščena. Stereofonski posnetek se da predvajati monofonsko, saj se oba signala združita in nastane mešanica zvokov, zato prostorski vtis izgine. Kadar poslušamo stereofonski posnetek skozi zvočnike, imamo občutek, da prihaja zvok z leve in desne strani, pri poslušanju skozi slušalke pa imamo občutek, da smo sredi ustvarjalcev zvoka (orkestra).

Kvadrofonija (quattour - lat. štiri) ali štirikanalni zapis zvoka, pri katerem se snema na štiri kanale s štirimi mikrofoni, od katerih dva zapisujeta direktne zvoke izvajalca, dva pa zapisujeta indirektne informacije. Zato so tudi za reproduciranje potrebni štirje, v prostoru pravilno razvrščeni zvočniki. Pomembna je kompatibilnost z dvokanalno stereofonijo oz. monofonijo. Monofonske zvočne posnetke lahko reproduciramo tako z mono, kakor tudi s stereo in kvadro aparaturami, vendar le monofonsko. Reprodukcijo, posneto v kvadrotehniki, lahko poslušamo z mono, stereo ali kvadro napravami, pri čemer je kvaliteta reprodukcije odvisna od uporabljene avdio-strojne opreme [#1]. 2.4 Prepletanje otipkov Večkanalni zapis avdio signala je lahko zakodiran s prepletanjem otipkov po kanalih ali ločeno za vsak kanal. Prednost združevanja kanalov s prepletanjem otipkov je v lažji sinhronizaciji med kanali (vrednosti kanalov so sosednje in tako je z njihovo pozicijo v prepletenem signalu pogojeno tudi procesiranje in predvajane). Shranjevanje in prenos večkanalnega prepletenega avdio zapisa je bolj učinkovito kot pri ločenih avdio kanalih. Slabost pristopa s prepletanjem je, da zaseda na tak način zapisan avdio signal več pomnilniškega prostora oz. večjo pasovno širino, kar zmanjšuje učinkovitost, če niso zasedeni vsi kanali. Nadaljnja slabost prepletanja kanalov je, da so operacije nad posameznimi kanali zahtevnejše (in s tem dražje) zaradi dostopa do vseh ostalih kanalov; npr. pri polnjenju medpomnilnika z vzorci, ki so shranjeni na trdem disku, bodo prebrani vsi prepleteni kanali, čeprav za procesiranje potrebujemo npr. le enega ali največ dva kanala. Prepletanje tudi “zamrzne” sinhronizacijske relacije med kanali, saj je vsak kanal premaknjen (ranga otipkov) glede na druge in ga moramo, če ga želimo sinhrono predvajati, najprej razplesti, nato pa, glede na mesto v prepletenem signalu, ustrezno zamakniti. Slabost prepletanja kanalov je prav tako v privzetem številu kanalov (dodajanje ali odvzemanje kanalov ni mogoče) [2].

Page 39: UNIVERZA V MARIBORU FAKULTETA ZA ...zvoka se odbije od sten sobe in potuje po daljših poteh, kot direkten zvok in tako doseže ušesa nekoliko kasneje (pot B). Odbiti zvoki so tudi

31

2.5 Otipki z negativno vrednostjo

Vrednosti napetosti v analognem avdiu signalu nihajo med pozitivnimi in negativnimi , zato imajo digitalizirani otipki tudi negativne vrednosti. Zaradi tega obstaja več formatov zapisa, ki se razlikujejo po predstavitvi negativnih otipkov.

Ena možnost predstavitve otipkov kodiranih z impulzno kodno modulacijo (PCM) je kodiranje z nepredznačeno vrednostjo (kjer vrednost 0 pomeni najnižjo negativno napetost). Za procesiranje signala (aritmetične operacije) pa je ustrezneje uporabiti predznačena števila, pri čemer se za zakodiranje negativnih otipkov uporabi bodisi eniški bodisi dvojiški komplement ali podoben pristop za označevanje predznačenosti amplitude otipka [2].

Primeri izbire kodiranja kvantizacijskih nivojev vidimo na sliki 2.31.

Slika 2.31: Primeri kodiranja.

2.6 Kodiranje in zgoščevanje Če bi želeli posneti čisti avdio signal (brez omejitve zgornje frekvenčne meje) na trak, bi potrebovali ogromno pasovno širino, saj bi vsak bit moral biti kodiran kot čisti simbol z enicami in ničlami, prav tako bi vsak bit potreboval obrat polaritete v magnetnem mediju. Poleg tega potrebujemo tudi dodatne podatke za odkrivanje in popravljanje napak, tako da bi bila pasovna širina še večja. Naslednja enačba nam prikazuje izračun za kapaciteto kanala: )1(log 2 SNRBC += [b/s] (2.15) kjer je B pasovna širina in SNR razmerje signal/kvantizacijsko popačenje. Če signal filtriramo z nizko prepustnim filtrom (mu omejimo frekvenčni pas na slušno področje 20 kHz) lahko izračunamo kapaciteto signala. Če npr. omejimo frekvenčni pas avdio signala na 20 kHz in vzamemo za SNR traku 55dB (S/N = 316228), dobimo kapaciteto kanala traku C = 45,74 kB/s, pri CD-ju pa imamo za enako frekvenčno področje in pri vzorčenju s

Page 40: UNIVERZA V MARIBORU FAKULTETA ZA ...zvoka se odbije od sten sobe in potuje po daljših poteh, kot direkten zvok in tako doseže ušesa nekoliko kasneje (pot B). Odbiti zvoki so tudi

32

frekvenco 44.1 kHz, kvantizacije 16 bitov in dveh kanalih dobimo lkapaciteto kanala C=176,44 kB/s (44100*16*2=176,44kB/s). S ciljem zmanjšanja pasovne širine (cene prenosa) in pomnilniškega prostora (shranjevanje digitalnega avdio signala) so bile razvite številne metode kodiranja avdia. Kodiran zvok predstavlja boljšo kakovost v primerjavi z nekodiranim pri isti podatkovni hitrosti.[2] V teoriji obstaja veliko načinov, kako digitalno kodirati analogni signal. V osnovi so vsi pristopi enaki, kako pretvoriti analogni signal v digitalnega, vendar se v praksi veliko razlikujejo v relativni učinkovitosti, v potrebi pasovne širine, razmerju signal/šum in natančnosti. Obstaja tehnika kodiranja, ki je široko razširjena in sprejeta v avdio digitalizaciji, to je impulzno – kodna modulacija (PCM). Tehnike, kot so amplitudna modulacija (AM) in frekvenčna modulacija (FM), se na veliko uporabljajo pri radijskem oddajanju, kjer nosilnemu signalu spreminjamo amplitudo (AM) ali frekvenco (FM). Takemu načinu kodiranju rečemo tudi valovno parametrično moduliranje14. Primera obeh sta prikazana na sliki 2.32.

Slika 2.32: Valovno parametrična modulacija.

Z digitalno informacijo, se pojavijo še druge oblike modulacij – impulzno parametrične

modulacije: impulzno amplitudna modulacija (PAM), impulzno številčna modulacija (PNM15), impulzno širinska modulacija (PWM16), impulzno pozicijska modulacija (PPM17) in impulzno kodna modulacija (PCM). Pri PAM, PWM in PPM, na sliki 2.33, uporabimo hibridno

14 angl. Wave Parameter Modulation 15 angl. Pulse Number Modulation 16 angl. Pulse Width Modulation 17 angl. Pulse Position Modulation

Page 41: UNIVERZA V MARIBORU FAKULTETA ZA ...zvoka se odbije od sten sobe in potuje po daljših poteh, kot direkten zvok in tako doseže ušesa nekoliko kasneje (pot B). Odbiti zvoki so tudi

33

Slika 2.33: Trije primeri impulzno parametrične modulacije.

impulzno tehniko, s katero je amplituda, pozicija ali širina impulza kodirana direktno, saj nam določijo analogno vrednost v trenutku vzorčenja. S PNM in PCM, na sliki 2.34, je impulz ali koda direktno kodirana iz vhodnega signala, kar je za avdio kodiranje bolj učinkovito. PNM generira niz impulzov, ki predstavljajo vhodno amplitudo. Pri PCM je niz impulzov kodiranih v zaporedje binarnih števil. Ponavadi rečemo da je signal zakodiran v nezgoščeni (RAW) obliki, saj vsebuje gole podatke o vzorcih signala Na splošno gledano, je PCM še najbolj učinkovita oblika digitalizacije visoko občutljivega avdio signala [7]. Impulzno kodna modulacija (PCM) Impulzno kodna modulacija PCM je kombinacja naslednjih treh postopkov (slika 2.29):

- vzorčenje s frekvenco fe, - kvantizacija z N koraki (pri linearni PCM so kvantizacijski koraki enaki, pri

nelinearni pa so različnih velikosti), - kodiranje N naravnih števil, ki ustrezajo kvantizacijskim intervalom, običajno v

binarni obliki z log2N. Rezultat PCM modulacije je signal, ki prenaša digitalno informacijo z bitno hitrostjo D, ki ustreza številu vzorcev, odbranih v časovni enoti (fe), pomnoženih z bitno vsebino naravnega števila, ki jih predstavlja: D= fe log2N (b/s) (2.16). V splošnem so signalni nivoji z nizko amplitudo bolj pogosti, kot tisti z visoko amplitudo [12] PCM temelji na strukturi digitalnega signala iz niza impulzov. Signal dobro izkorišča

Page 42: UNIVERZA V MARIBORU FAKULTETA ZA ...zvoka se odbije od sten sobe in potuje po daljših poteh, kot direkten zvok in tako doseže ušesa nekoliko kasneje (pot B). Odbiti zvoki so tudi

34

pasovno širino in je manj “občutljiv” kot druge preproste metode za prenos digitalnih podatkov (npr. PAM z nizom impulzov s spremenljivo amplitudo).

Slika 2.34: Impulzno številčna in impulzno kodna modulacija.

V kontekstu avdio kodiranja predstavlja posamezna PCM vrednost niz nezgoščenih otipkov. Velikokrat se zaradi “surovega” načina zapisa digitalnega avdia PCM uporablja kot referenčni zapis v primerjavi z bolj kompleksnimi metodami kodiranja [2]. Diferencialna PCM - DPCM Pri tej metodi kodiranja signala ni potrebno shraniti celoten obseg signala, ampak samo spremembe od vzorca do vzorca. Torej, bolje je shraniti samo nekaj bitov, ki predstavljajo razliko v amplitudi med vzorci, kot shraniti dolge podatke, ki predstavljajo celotno amplitudo signala, kot vidimo na sliki 2.35.

Slika 2.35: Pri diferencialni PCM uporabimo samo en bit za kodranje razlike med

vzorcema.

Za kodiranje se uporabijo pozitivne (binarna 1) in negativne (binarna 0) spremembe. Potrebna je visoka frekvenca vzorčenja za sledenje hitrih prehodov signala. Prednost te metode je zgoščevanje podatkov. DPCM je oblika dekodiranja s predikcijo (prediktivnega kodiranja). Naslednji vzorec signala se določi iz predhodnega vzorca in spremembe amplitude. Ta metoda zmanjša število bitov potrebnih za kodiranje signala, vendar je uspeh

Page 43: UNIVERZA V MARIBORU FAKULTETA ZA ...zvoka se odbije od sten sobe in potuje po daljših poteh, kot direkten zvok in tako doseže ušesa nekoliko kasneje (pot B). Odbiti zvoki so tudi

35

odvisen od uporabljene metode za predikcijo vrednosti signalnih otipkov in zmožnosti predvidevanja dinamike signala (strminske preobremenitve). Delta modulacija (DM) Delta modulacija je oblika diferencialne PCM. Potrebuje zelo visoko frekvenco vzorčenja, tako da potrebuje samo en bit za digitalizacijo spremembe amplitude (prenaša se samo predznak spremembe) in to z malo napakami. S stališča programske in strojne opreme je ta metoda enostavna in učinkovita. V praksi se ta metoda ne obnese pri visoko občutljivih aplikacijah, ker frekvenca vzorčenja ni dovolj velika in samo en bit ne more slediti komplicirane ovojnice avdio signala. Problem predstavlja tudi prevelika dinamika vhodnega signala. Rekonstruiran signal je stopničast in v enem kvantizacijskem intervalu se lahko spremeni samo za ± kvantizacijski korak. Adaptivna (prilagodljiva) Delta modulacija (ADM) Problemu prevelike dinamike signala pri DM se lahko izognemo z adaptivno delta modulacijo. Pri ADM (podobno pri ADPCM) lahko kvantizacijski korak spreminjamo in se s tem odzovemo na hitre spremembe vhodnega signala. Spremenljiv kvantizacijski korak se določi iz predhodnih vzorcev v skladu z ustreznim algoritmom. Iz nizov enic in ničel se da predvideti možno prekoračitev naklona in kvantizacijski korak ustrezno povečati/zmanjšati. Primer je na sliki 2.36 [7].

Slika 2.36: Adaptivna delta modulacija.

ADPCM zmanjša potrebno podatkovno hitrost PCM signala s kodiranjem razlike med posameznimi otipki za faktor reda 22 krat (tabela 2.3). Obstajajo razlike med tehnikami ADPCM, vendar je vsem skupen postopek zamenjave vzorca z bitom, ki določa predznak razlike med vzorcem in predhodnikom vzorca. Med dekodiranjem se vzorci rekonstruirajo z množenjem razlike in dodajanjem vrednosti k prejšnjemu dekodiranemu vzorcu. Predhodna vrednost vzorca določa indeks v tabeli množitvenih faktorjev in s tem velikost povečanja razlike. Množitveni faktorji so odvisni od originalnih vzorcev in se izračunajo ob kodiranju. ADPCM je sorodna s številnimi drugimi metodami, kot so diferenčna pulzna modulacija in delta modulacija. Največ se uporablja na zgoščenkah CD-I in DVI. Obstajajo tudi ADPCM standardi (npr. CCITT G.721).

Page 44: UNIVERZA V MARIBORU FAKULTETA ZA ...zvoka se odbije od sten sobe in potuje po daljših poteh, kot direkten zvok in tako doseže ušesa nekoliko kasneje (pot B). Odbiti zvoki so tudi

36

Nekateri formati zapisa digitalnega avdia so podani v preglednici (tabela 2.3). V grobem jih lahko razdelimo v dve skupini (avdio CD in DAT18) uvrščamo formate, ki omogočajo visoke podatkovne hitrosti in so primerni za shranjevanje glasbe, v drugo skupino pa formate G.721, G711 (A-law in µ-law), ki omogočajo nizke podatkovne hitrosti in se uporabljajo predvsem v digitalni telefoniji [2]. 2.6.1 Standard G.711 (A law in µ law) ISDN avdio telekomunikacija je uporabljena v mnogih pogledih, vendar je večina pogovorov zgoščenih v skladu s standardom G.711 (CCITT19). Standard je avdio shema zgoščevanja podatkov iz čistega PCM (*.WAV) formata v format, ki bi ga bilo mogoče uporabljati pri nizkih podatkovnih hitrostih telefonskega omrežja in bil hkrati uporaben na področju multimedijske komunikacije. G.711 omogoča lažje prenašanje podatkov med različnimi podatkovnimi formati in enostavno pripravi avdio format (.wav) za uporabo v ISDN komunikaciji. G.711 uporablja logaritmično interpolacijo pri zgoščevanju podatkov čistega PCM formata, s katero zmanjša 16 najpomembnejših bitov na 8 bitov. Pri frekvenci vzorčenja 8 kHz je podatkovni hitrost 64 kb/s, kar ponuja ISDN-B kanal. Obstajata dva standarda: A-law in µ-law (tudi u-law ali mu-law) [#24]. Tabela 2.3: Nekateri avdio formati.

Avdio CD DAT G.721 G.71120 Frekvenca vzorčenja (kHz) 44.1 4821 8 8 Število bitov 16 16 16/422 8 Kvantizacija linearna linearna linearna logaritemska Število kanalov 2 2 1 1 Podatkovna hitrost (kb/s) 705 768 32 64 Kodiraje PCM PCM ADPCM PCM Kvaliteta zapisa visoka visoka zmerna tel.vod

A-law. Evropsko digitalno telefonsko omrežje uporablja kodirni algoritem, ki deluje po principu neuniformne kvantizacije, imenovan digitalni kodirni standard A-law [#26] Idealno logaritemsko kompresijsko karakteristiko lako nadomestimo s kombinacijo linearnega in logaritemskega dela, kot prikazuje levi del slike 2.37. Naklon linarnega dela, gledano iz koordinatnega izhodišča, imenujemo kompresijsko razmerje C in je po dogovoru enako 16. Imamo torej:

- linerani del: x≤1/A, - logaritemski del: 1/A≤x≤1

da bi zadovoljili pogoj za 40 dB področje dinamike (0,01≤x≤1) in da bi dobili število stopnic, ki je kompatibilno linearim kodirajem, so izgrali q=28=256 stopnic.

18 angl. Digital Avdio Tape 19 angl. Comité Consultatif International Téléphonique et Télégraphique 20 Format A-law se uporablja v evropskih telefonskih sistemih, format µ-law pa v Severni Ameriki. 21 DAT obsega množico avdio formatov. Izbiramo lahko med tremi frekvencami vzorčenja (32kHz, 44.1 kHz, 48 kHz). Vzorčenje z 32 kHz lahko uporablja bodisi 16-bitno linearno kvantizacijo, bodisi 12-bitno nelinearno kvantizacijo. V slednjem primeru lahko posnamemo dve ali štiri sledi. Numerične vrednosti, navedene v tabeli, se nanašajo na najkakovostnejši DAT zapis. 22 Prva števka je dekodirana bitna velikost otipka, druga pa zakodirana vrednost.

Page 45: UNIVERZA V MARIBORU FAKULTETA ZA ...zvoka se odbije od sten sobe in potuje po daljših poteh, kot direkten zvok in tako doseže ušesa nekoliko kasneje (pot B). Odbiti zvoki so tudi

37

Slika 2.37: Kompresije pri A- law in µ-law.

µ-law. µ-law je zelo podoben A-law in se uporablja v ZDA in na Japonskem in je

prikazan na desni sliki. Naklon linearnega dela je 46, kar pomeni, da so šibkejši nivoji govornega signala precej bolj fino kvantizirani kot pri evropskem načinu.

Obe pravili sta si zelo podobni, vendar je razlika v naklonu linearnega dela vseeno takšna, da so nelinearna in linearna popačenja, predvsem pri nižjih amplitudah, prevelika, da bi lahko shajali brez pretvorikov na zvezahm ki so z enim krakom zveze v področju A, z drugim krakom pa v področju µ

Diagram na sliki 2.38 prikazuje, kakšna je razlika med evropsko in ameriško PCM digitalno modulacijo v pogledu razmerja signal/kvantizacijsko popačenje za pravi govorni signal.

Slika 2.38: Kvantizacijsko popačenje.

Razlika je največja pri govornih signalih v področju od 40 dB do 60 dB pod

nominalnim vhodnim nivojem signala. V področju od 10 dB do 40 dB je razlika minimalna, v področju rezanja je seveda ni. V telefoniji so najbolj pogosti signali z majhnimi amplizudami, kar vodi do PCM besed z mnogo ničlami, kar je zelo neugodno za vsebnost urnega signala in s tem za sinronizacijo sprejemnika in vmesnih regeneratorjev. Zato v Evropi sodo oštevilčene bite, v ZDA in na Japonskem pa vse bite, razen bite za predznak, sistematično invertirajo [12].

Page 46: UNIVERZA V MARIBORU FAKULTETA ZA ...zvoka se odbije od sten sobe in potuje po daljših poteh, kot direkten zvok in tako doseže ušesa nekoliko kasneje (pot B). Odbiti zvoki so tudi

38

V tabeli 2.4 navajamo nekaj avdio formatov zapisa, ki se uporabljajo v današnjem času in njihove kratke opise. Tabela 2.4: Nekaj avdio formatov in njihovi kratki opisi [#27]:

ADPCM Zgoščen WAV format. ADPCM je avdio kompresijska shema, ki stisne 16 bitov na 4 bite s stopnjo zgoščevanja 4:1.

ALAW Zgoščen WAV format

ALF2CD Zgoščen WAV format. ACM kodec je bil razvit s strani NTC Company. Je dober pri ohranjevanju kvalitete glasbe, primerljivo s CD kvaliteto.

DSP Zgoščen WAV format. Format DSP Group True Speech (TM). GSM Zgoščen WAV format. Dober pri zgoščevanju človeškega govora. G.726 Uporabljen pri računalniški telefoniji. Dober pri zgoščevanju človeškega govora.

MP3 Format MPEG plat-3 (Layer-3). Zelo popularen za glasbo. Ohranja kvaliteto primerljivo z CD kjub visoki stopnji zgoščevanja.

WAV PCM

Standardni Windows WAV format za ne-zgoščene avdio podatke. PCM je standardna metoda digitalizacije avdio signala. Je osnovni, nezgoščen podatkovni format, ki se uporablja v primerih, kot je npr. Windows.wav.

µ LAW Zgoščen WAV format

VOX

Je dialogični ADPCM format in je pogosto uporabljen v telefonskih aplikacijah ter je bil optimiziran za nizko frekvenčno vzorčenje glasu. Shrani samo 16 bitni,enokanalni (mono) avdio in, kot ostali ADPCM formati, ima stopnjo zgoščevanja 4:1.

RAW ali WAV Neobdelan PCM format avdio podatka (slednji za okolje Windows).

WMA Windows Media Audio format. Poseben format, za uporabo z avdio vsebino, kodirano z Windows Media avdio kodekom.

CCIT µ-Law Zgoščen WAV format. Ogg Vorbis Ogg Vorbis format, popularen in ohranja kvaliteto, kot mp3.

RA ali RAM

Real Audio Media. Format se uporablja za prenašanje glasbenih informacij po internetu (live streaming). Stopnja kompresije je zelo visoka; algoritem zniža frekvenco vzorčenja, globino zvoka, išče podobne vzorce...

Page 47: UNIVERZA V MARIBORU FAKULTETA ZA ...zvoka se odbije od sten sobe in potuje po daljših poteh, kot direkten zvok in tako doseže ušesa nekoliko kasneje (pot B). Odbiti zvoki so tudi

39

3. DIGITALNE AVDIO OPERACIJE 3.1 Shranjevanje

Vsi smo se že od malih nog srečali z gramofonskimi ploščami in glasbenimi kasetami, nekateri tudi s kolutnimi magnetofoni. Gramofon, kasetofon in magnetofon so tipični predstavniki analogne tehnologije shranjevanja. Ti so bili eni prvih shranjevalnih medijev, ki so se uveljavili v avdio tehnologiji. Od začetka avdio tehnologije in tekmovanja med shranjevalnimi mediji se je veliko shranjevalnih medijev uveljavilo v avdio sistemih. Magnetno snemanje je bilo glavna opora za shranjevanje analognih signalov zadnjih petdeset let in zmožnost branja, pisanja in brisanja ga je naredilo edinstvenega med shranjevalnimi mediji. Razvit je bil tudi digitalni avdio magnetni trak, ki je zmožen shraniti večjo količino podatkov, ki so potrebni pri digitalnih podatkih (DAT23). Do sedaj sta se najbolj obdržala magnetni trak in novejši, optični disk, kot prevladujoči obliki shranjevanja digitalnega avdia; magnetni trak kot tračni snemalniki s stacionarno in vrtljivo glavo ter optični disk kot zgoščenka CD (Compact Disc – CD, kompaktna zgoščenka). Slednji se je učinkovito uveljavil med potrošniki. [7].

Danes je snemanje digitalnega zvoka na splošno namenske magnetne medije mogoče tudi v formatih z visokimi podatkovnimi hitrostmi. Tako lahko na magnetni disk s hitrostjo prenosa 5 MB/s teoretično posnamemo/predvajamo tudi do 50 kanalov z digitalno avdio CD kakovostjo. Vendar tako velikega števila kanalov ni mogoče uporabiti brez visoko- optimirane ureditve podatkovnega zapisa in medpomnilnika, tako da trenutna tehnologija magnetnih medijev, vodil in manjših računalniških sistemov ne dopušča zapisovanja/branja nazivnega števila kanalov. Ena ura nezgoščenega digitalnega stereo zvočnega zapisa v CD kakovosti zasede več kot 0.5 GB pomnilniškega prostora. Posledica tega je, da zahtevajo aplikacije, ki procesirajo večje število digitalnih avdio zapisov, ločene (terciarne) pomnilniške kapacitete. Npr. v avtorskem večpredstavnem okolju lahko shranimo zvočne zapise ločeno (terciarni medij), vendar v taki obliki, da zapise (medij) preprosto uvozimo in vključimo v predstavitve. V ta namen so najbolj razširjeni mediji DAT in zgoščenke CD-DA (danes tudi DVD). Ko zahteva uporabnik zvočno sekvenco, dostopa do ustrezne zgoščenke ali DAT in morebitni zapis kopira (predpriprava) na sekundarni pomnilniški medij (trdi disk). Namestitev terciarnih pomnilniških medijev je lahko ročna ali samodejna (izmenjevalnik zgoščenk). Nekatera avtorska orodja podpirajo uvažanje terciarno nameščenih zvočnih zapisov s postopki prednaložitev. V večpredstavni predstavitvi se ustrezno označi tisti zvočni zapis, ki se mora prednaložiti v medpomnilnik ustrezen čas pred trenutkom, ko bo predvajan v neki sceni (pogoj je, da razpolagamo z dovolj pomnilniškega prostora) [2]. 23 angl. Digital Audio Tape

Page 48: UNIVERZA V MARIBORU FAKULTETA ZA ...zvoka se odbije od sten sobe in potuje po daljših poteh, kot direkten zvok in tako doseže ušesa nekoliko kasneje (pot B). Odbiti zvoki so tudi

40

3.2 Digitalni mediji zapisa zvoka

Poleg že znanih medijev, kot so digitalni magnetni trak, magetni disk, splošno namenska pomnilniška vezja itd., se bomo malo bolj posvetili novejšim shranjevalnim medijem – optičnim shranjevalnim medijem. Opisali bomo zgoščenko CD, zgoščenko CD–DA, zgoščenko SACD24 in zgoščenko DVD–A25.

Kompaktna plošča (CD) ali zgoščenka CD, je po mnenju mnogih najprimernejši medij za shranjevanje večpredstavnih podatkov, navkljub omejeni kapaciteti. Na CD lahko spravimo tudi do 90 minut glasbe ali od 650 do 900 MB podatkov. Razširjeno se uporablja množica standardiziranih različic zgoščenk CD. Nizki stroški presnemavanja zgoščenk (v primerjavi z magnetnimi trakovi), njihova prenosljivost, mehanska odpornost in predstavitve predvajanja digitalnega videa v zadnjem času kažejo, da je zgoščenka CD postala običajen medij za shranjevanje in izmenjavo večpredstavnih podatkov. Tehnologija zgoščenk CD je bila razvita v poznih sedemdesetih letih, prvenstveno v podjetjih Philips in Sony. Prvi predvajalniki avdio zgoščenk so bili predstavljeni na tržišču leta 1982. Od takrat se je zgoščenka uveljavila kot dominanten nosilec zvoka. Zaradi nizke cene in sorazmerno velike kapacitete pa so bile predlagane številne razširitve, ki bi povečale uporabnost zgoščenke kot medij izven avdio opreme. Tako so razvili formate zgoščenk, ki so specificirani z vrsto dokumentov, določenih z barvo naslovnice dokumenta:

• rdeča knjiga (1982) specificira fizične specifikacije zgoščenk za format CD in format CD – DA,

• rumena knjiga (1985), format CD – ROM, • zelena knjiga (1988), format CD – I, • oranžna knjiga (1991), format CD – R, • bela knjiga (1993), format Video CD.

Fizične specifikacije zgoščenke CD in osnovne kompatibilnosti med različnimi formati zgoščenk in predvajalniki so specificirani v rdeči knjigi, sestavljeni v podjetju Philips in Sony. Standardna zgoščenka ima 120 mm premera, debeline 1.2 mm in je sestavljena iz treh plasti: transparentnega substrata, tanke kovinske plasti in zunanje plasti iz zaščitnega akrila. Kovinska plast vsebuje dolga zaporedja majhnih vdolbin (pribl. 0.6 µm v premeru, dolžine od 0.833 – 3.05, µm, med sledmi je pribl. 1,6 µm), strnjena v obliki polža od znotraj navzven. Slika 3.1. prikazuje izgled vdolbin.

Slika 3.1: Mere zapisa sledi na CD.

24 Angl. Super Avdio Compact Disc 25 angl. Digital Versatile Disc – Avdio

Page 49: UNIVERZA V MARIBORU FAKULTETA ZA ...zvoka se odbije od sten sobe in potuje po daljših poteh, kot direkten zvok in tako doseže ušesa nekoliko kasneje (pot B). Odbiti zvoki so tudi

41

Meje med vdolbinami zaznava laserski žarek v predvajalniku, ki ima ločljivost reda 1 µm in vrača podatke v obliki niza digitalnih impulzov. Logične enice predstavljajo mejo med vdolbinami, ničle pa označujejo, da meje ni. To vrsto podatkovnega niza imenujemo podatki kanala26 in ga s CD-ja zajemamo s hitrostjo 4.3 Mb/s. Podatki kanala se ne uporabljajo neposredno; podatkovni niz vsebuje kodirane aplikacijske podatke in ga moramo najprej dekodirati. Razlog za kodiranje, ki poteka v fazi izdelave zgoščenke CD, je povečanje robustnosti in podaljšanje življenske dobe medija. Za podatkovno kodiranje na zgoščenki CD sta razširjeni dve tehniki (širša obrazložitev sledi na koncu poglavja):

• Reed – Solomon kodiranje s shemo za odkrivanje in popravljanje napak s križnim prepletanjem (CIRC – Cross Interleaved Reed Solomon Code) in

• Modulacija osem na štirinajst (Eight to Fourteen Modulation) – procedura za odstranjevanje uspešnih enic. Laserski mehanizem ima omejeno ločljivost razpoznavanja (pri λ = 780 nm uspemo laser fokusirati na pribl. 1 µm), zato uporabljamo kodne postopke, ki preprečujejo, da bi bile meje med vdolbima, preveč skupaj).

Med dekodiranjem so biti kanala (podatki kanala) združeni v okvire. Ti okviri predstavljajo najmanjše podatkovne enote in se v predvajalniku zgoščenke CD dekodirajo neodvisno. Posamezni okvir (za fizični zapis na zgoščenko) vsebuje 588 bitov in se po dekodiranju zmanjša na 200 bitov, združenih v ustrezen format, kot prikazuje slika 3.2.

Slika 3.2: Osnovni format zapisa okvira zgoščenke CD.

V glavi vsakega okvira je 8 bitov, ki tvorijo zlog podkode (P, Q, R, S, T, U, V, W). Podkoda zgoščenke CD je porazdeljena med osemindevetdeset okvirov. Na tak način se oblikuje osem 98 – bitnih enot, ki vsebujejo organizacijsko in programsko področje. Vse zgoščenke CD vsebujejo t.i. vstopno področje, programsko področje, ki vsebuje od 1-99 sledi, in končno izstopno področje. Informacija zapisana v enoti podkode P in Q podaja razmejitve med navedenimi področji. Podkodi v okviru zgoščenke sledi 192 zlogov poljubnih podatkov (slikovni, tekstovni, …). Format CD –DA je poznan kot standardni format zgoščenke CD, ki vsebuje digitalni avdio zapis in je bil prvi narejeni CD. Frekvenca vzorčenja za avdio zgoščenki je 44.1 KHz in vsak vzorec je kvantiziran s 16 biti. Pri dveh razpoložljivih avdio kanalih znaša podatkovna hitrost (44100•16•2) 1411200 b/s, kolikor znaša podatkovni delež okvira zgoščenke CD. Vse podatkovne okvire zasedajo avdio otipki. Ker vsebuje posamezen okvir 192 podatkovnih bitov, je vsak okvir CD – DA omejen na 12 avdio otipkov, 6 v vsakem kanalu (12•16 = 2•6•16 = 192). Programsko področje na zgoščenki CD – DA obsega eno ali več glasbenih sledi, včasih ločenih s premori. Enota podkode Q predstavlja preglednico sledi, pripadajoče vsebine in informacije učasovanja na posamezno sled. Preglednica vsebine tako določa število sledi na zgoščenki, njihovo lokacijo in trajanje. Informacija o učasovanju pa označuje pretekli in preostali čas predvajanja celotne zgoščenke ali sledi in zaporedno številko sledi [2]. 26 angl. channel data

Page 50: UNIVERZA V MARIBORU FAKULTETA ZA ...zvoka se odbije od sten sobe in potuje po daljših poteh, kot direkten zvok in tako doseže ušesa nekoliko kasneje (pot B). Odbiti zvoki so tudi

42

DVD je “naslednik” zgoščenke CD. Mediji so na prvi pogled zelo podobni CD-jem, razlika pa je bistvena: izpostavimo lahko gostoto zapisa podatkov, zgoščenka pa omogoča tudi višje prenosne hitrosti. Na DVD lahko shranimo od 4.7 do 17 GB podatkov. DVD-Audio je bil izmed cele družine DVD-jev razvit zadnji, če se omejimo le na tovarniško zapečene zgoščenke, in sicer z namenom višje kakovosti zvoka, kot pa ga ponuja CD. Razvit je bil na osnovi video formata (DVD). DVD Forum (skupina WG4), ki je izdal specifikacijo DVD-Audio, vseskozi preučuje trg in glasbeno industrijo, ki jo predstavlja ISC (International Steering Comittee), ter na podlagi ugotovitev poda splošne smernice razvoja prihodnjih visoko kvalitetnih avdio formatov. DVD-Audio ponuja širok razpon novosti, med njimi večjo kvaliteto, prostorski zvok, daljši predvajalni čas ter še možnost dodatnega materiala, ki ni na voljo na zgoščenki CD. DVD-Avdio zgoščenke lahko vsebujejo video, visoko kvaliteten avdio ter omejeno interaktivnost. Kapaciteta dvoslojne DVD-Audio zgoščenke omogoča najmanj 2 uri predvajanja prostorskega zvoka in najmanj 4 ure predvajanja stereo zvoka(enoslojne zgoščenke omogočajo približno polovico). Glavne lastnosti specifikacije DVD-Audio vključujejo:

• visoko kvalitetni večkanalni zvok z možnostjo avtorske zaščite • DVD-Audio predvajalniki predvajajo zgoščenke CD • širok izbor stopenj kvalitete in števila kanalov, kar omogoča fleksibilnost pri

različnih sistemih • možnost nadgradnje z novo tehnologijo, ko bo le-ta na voljo • dodaten material, ki vključuje video, slike, besedilo in menije • uporabniku prijazen navigacijski sistem • povezava s spletom, kar omogoča pridobivanje najnovejših informacij in podporo

izdelkom DVD–Audio, DVD–AudioV in DVD–Video. Skupina WG4 je definirala dve različici

formata DVD-Audio. Enega za čiste avdio aplikacije, drugega pa za avdio skupaj z videom. Skupaj s formatom DVD-Video, imamo tako tri formate, ki so našteti v spodnji tabeli 3.1. Podatki DVD-Audio obsegajo avdio objekte in organizacijske podatke, ki se nahajajo v imeniku AUDIO_TS. Dodatni video podatki na zgoščenki DVD-AudioV pa vsebujejo še video objekte (ki odgovarjajo DVD-Video specifikaciji) in se nahajajo v imeniku VIDEO_TS. Zaradi omejene hitrosti količine podatkov ni možno na isti zgoščenki shraniti visoko kvaliteten avdio in video kot del ene same avdio – video sekvence. DVD-Avdio specifikacija navaja uporabo linearnega PCM večkanalnega in stereo kodiranega formata, kontrolo z mešanjem zvoka navzdol t.i. “down-mix” in druge opcijske avdio formate. Video objekti uporabljajo enako avdio kodiranje kot zgoščenke DVD-Video. Tabela 3.2 prikazuje primerjavo med avdio in video objekti.

Tabela 3.1: Formati DVD – Avdio, DVD – Audio V in DVD Video. Format Vsebina Možnost predvajanja

DVD-Audio Avdio zgoščenke z možnim dodatnim materialom: besedila, meniji in slike, brez videa

DVD-Audio predvajalnikih in univerzalni predvajalniki DVD

DVD-AudioV Vse kot DVD-Audio dodatno video po specifikaciji formata DVD-Video

Univerzalni predvajalniki DVD in na predvajalnikih DVD-Video (samo video)

DVD-Video Video brez avdio vsebine (DVD-Audio) DVD-Video predvajalniki in univerzalni predvajalniki DVD

Page 51: UNIVERZA V MARIBORU FAKULTETA ZA ...zvoka se odbije od sten sobe in potuje po daljših poteh, kot direkten zvok in tako doseže ušesa nekoliko kasneje (pot B). Odbiti zvoki so tudi

43

Tabela 3.2: Primerjava med avdio in visedo objekti. Avdio objekt Video objekt Kodiranje LPCM ali Packed (brezizgubna) PCM LPCM ali Dolby Digital Frekvenca (kHz) 44.1 / 48 / 88.2 / 96 / 176.4 / 192 48 / 96 Bitov / vzorec 16 / 20 / 24 16 / 20 / 24 Max.št. kanalov 6 (fS = 96kHz) ali 2 (fS = 176.4 / 192 kHz) 8 Max. Mb/s 9.6 (za LPCM) 6.144 Princip kodiranja DVD -avdio ostaja isti, kot pri CD zgoščenkah (PCM), vendar pa ponuja boljšo kvaliteto zvoka z uporabo večje frekvence vzorčenja. Maksimalna hitrost prenosa avdio podatkov je 9,6 Mb/s, kar je pogojeno s frekvenco vzorčenja večkanalnega zvoka, ki znaša 96 kHz. Da lahko kar najbolje izkoristimo razpoložljivo kakovost, se lahko večkanalni DVD-Audio kodira kot 2 skupini kanalov, z različnimi parametri za vsako skupino. Npr. levi, desni in center (kanali) so lahko kodirani kot 96 kHz / 24 b, levi in desni ambientni27 (obkrožni) pa kot 48 kHz / 16 b. Skupine kanalov so lahko uporabljene na več načinov, in sicer samo kadar je število kanalov 3 (levi, desni, center) ali več. Mono in stereo zahtevata le eno skupino. Na zgoščenko je možno zapeči 2-kanalni in 6-kanalni avdio, npr. po enega na vsak sloj ali stran. Poleg PCM so podprti še naslednji avdio formati:

• Dolby Digital (AC-3), ki je ponavadi zvočni format za video vsebino na zgoščenki DVD-Audio

• MPEG-1 stereo ali MPEG-2 večkanalni avdio • Drugi, kot npr. DTS28, SDDS29 itd.

Da se predvajalni čas katerekoli zgoščenke DVD-Audio pri največji možni kvaliteti zvoka poveča na vsaj 74 minut na sloj, je WG4 izbrala sistem zgoščevanja Meridian Lossless Packing (MLP – Meridian brezizgubno zgoščevanje). MLP je enostaven za implementiranje, hkrati pa nič ne spremeni dekodiranega signala. Dekodiranje MLP-ja celo pri šestih kanalih (24 b / 96 kHz avdio) zahteva relativno majhno računsko moč.

V tabeli 3.3 so prikazani predvajalni časi brez in z MLP-jem. Tabela 3.3:Predvajalni časi brez in z MLP-jem.

Enoslojni Dvoslojni Enoslojni Dvoslojni Kombinacija Konfiguracija

(z MLP)

2 kanala 48kHz, 24b, 2 kanala 258 min 469 min 344 min 622 min

2 kanala 192kHz, 24b, 2 kanala 64 min 117 min 86 min 155 min

6 kanalov 96kHz, 24b, 6 kanala 43 min 78 min 74 min 133 min

5 kanalov (2 skupini)

96kHz, 24b, 3kanali + 48kHz, 24b, 2kanala 64 min 116 min 111 min 201 min

Zadnji primer v tabeli uporablja dve skupini kanalov. Za “ambientne” kanale uporablja

nižje frekvence, kar se pozna pri zvečanem predvajalnem času. Pojavila se je tudi zahteva

27 angl. Surround 28 angl, Digital Theater System 29 angl, Sony Dynamics Digital Sound

Page 52: UNIVERZA V MARIBORU FAKULTETA ZA ...zvoka se odbije od sten sobe in potuje po daljših poteh, kot direkten zvok in tako doseže ušesa nekoliko kasneje (pot B). Odbiti zvoki so tudi

44

po formatu zgoščenke, ki bi bil lahko predvajan tako v CD kot tudi DVD-Audio predvajalniku, hkrati pa uporablja različne metode kodiranja. Rešitev je ponudilo podjetje Philips, in sicer z novim tipom zgoščenke, zgoščenko SACD30 [#5]. Za konec podajamo še primerjalno tabelo tehničnih podatkov med zgoščenkama DVD-Avdio in CD –(tabela 3.4). Tabela 3.4: Primerjava med DVD-Avdio in CD [#25].

Specifikacija DVD-Audio CD

Avdio format PCM PCM

Kapaciteta zgoščenke

4.7 Gb - enoslojen 8.5 Gb - dvoslojen

17 Gb – dvostranski dvoslojen

650 Mb

Število kanalov Do 6 2 (stereo) Frekvenčni razpon 0 - 96kHz (max) 5 – 20 kHz Dinamično območje 144dB 96dB

Frekvenca vzorčenja – 2 kanala

44.1, 88.2, 176.4 KHz ali

48, 96, 192 KHz 44.1KHz

Frekvenca vzorčenja – večkanalnost

44.1, 88.2 KHz ali 48, 9 KHz Ne obstaja

Velikost vzorca (kvantizacija) 12, 16, 20, ali 24 bitov 16 bitov

Maksimalna podatkovna hitrost 9.6 Mb/s 1.4 Mb/s

SACD/DSD (Direct Stream Digital) Po knjigi standardov za zgoščenko SACD t.i. Scarlet Book-u, , gre za povsem novi digitalni format, namenjen izključno avdio aplikacijam. Razvit je bil na osnovi avdio formata CD, medtem ko je bil DVD-avdio razvit na osnovi video formata – DVD. Njegova glavna odlika in hkrati razlika od zgoščenke DVD-ja (zaradi česar, seveda, nista kompatibilna), je postopek DSD31, ki bolj natančno reproducira originalno obliko analognega signala in tako producira bolj kakovosten (naraven) zvok, ki bolj natančno zajame nianse in atmosfero izvora. [9]. SACD izpolnjuje vse zahteve komiteja ISC (International Standard Committee). Podpira visoko kvaliteto, večkanalni zvok, kompatibilnost s CD tehnologijo, zaščito avtorskih pravic in nekoliko dodatnega materiala.

30 angl. Super Audio CD 31 angl. Direct Stream Digital

Page 53: UNIVERZA V MARIBORU FAKULTETA ZA ...zvoka se odbije od sten sobe in potuje po daljših poteh, kot direkten zvok in tako doseže ušesa nekoliko kasneje (pot B). Odbiti zvoki so tudi

45

Glavni parametri so: - do 100kHZ frekvenčnega prenosa - 120 dB dinamičnega razpona - polna kvaliteta za vse kanale - hibridnost zgoščenke (CD in DVD) - zaščito pred kopiranjem - besedilo, grafične elemente in video objekte [#16].

Gre za povsem na novo razvit postopek snemanja (DSD), na katerega začetku analogno valovno oblikosignala neposredno pretvarjajo v 1-bitno digitalno obliko s pomočjo 1-bitne delta modulacije.Tako digitalizirani signali se obdelujejo skozi nizkoprepustni analogni filter in potem snemajo s snemalnim sistemom DSD. Po dostopni literaturi, v kateri opisujejo prednosti Super Avdio CD-ja, lahko sklepamo, da je ravno zaradi snemanja 1-bitnega signala postopek DSD veliko boljši od večbitnih, PCM-sistemov. CD format zapisa uporablja 16 bitno PCM kodiranje pri frekvenci vzorčenja 44,1 kHz. Frekvenčni odziv CD je omejen na 22,05 kHz in dinamični obseg na 96 dB. Takšni sistemi kodiranja zahtevajo filtracijo med snemanjem (decimiranje) in reprodukcijo (interpolacija oz. nadvzorčenje32) ter “protiprekrivalne” filtre, s katerimi odstranijo šum, ki je nastal s ponovno kvantizacijo (slika 2.20). Zaradi filtriranja s tema dvema filtroma pa lahko “zamažemo” zvok, pokvarimo občutek prostora in izgubimo subtilnost žive glasbe. Sistem DSD nima teh problemov, zahvaljujoč osnovni frekvenci vzorčenja celo 2,8224 MHz (64 x 44,1 kHz) pa je možno shraniti in reproducirati signal, katerega frekvenčni odziv je od 0 Hz do preko 100 kHz, dinamični odziv pa preko 120 dB.

Nosilec Super Avdio CD se lahko pojavi v treh oblikah: a) enoplasten HD (High Density) s kapaciteto 4,7 GB, na katerem bi bil samo

visoko kakovosten, dvokanalni avdio zapis; b) dvoplasten HD (kapacitete 8,5 GB) z visoko kakovostnim dvokanalnim in ravno

tako kakovostnim večkanalnim zapisom in c) dvoplasten, hibridni, na katerem bi se v plasti HD nahajali visoko kakovosten

dvokanalni in nekaj manj kakovosten večkanalni zapis ter konvencionalen 16-bitni / 44,1 kHz zapis na CD plasti.

Razen glasbenih informacij gre na takšeno zgoščenko tudi niz tekstovnih, grafičnih in

(statičnih) video podatkov. Obseg podatkov velikosti 4,7 GB gre samo na eno plast zahvaljujoč DSD, posebnemu načinu zgoščevanja (ki se uporablja samo pri zapisu “ambientnega zvoka”), ki so si ga zamislili v Philipsu, katerega podnaslov “Metoda brezizgubnega kodiranja33” nakazuje, da nič od izvirne informacije zaradi “zgoščevanja” ni izgubljeno, hkrati pa so uresničili 50% prihranek pomnilniškega prostora. CD zapis pa je posledica uporabe Sonyjevega postopka SBM Direct (Super Bit Mapping Direct), novo razvite tehnologije, s katero se DSD strukturirani podatki visoko verno pretvorijo v format CD. Diski DSD se berejo podobno kot tudi (nekateri) DVD-ji. Namreč, pogoni SACD so opremljeni, podobno kot tudi nekateri DVD-predvajalniki, z dvema laserskima sklopoma - enim za branje CD, ki ima podatke zapisane na odbojni plasti in drugim, za branje bolj plitko nameščene plasti HD (slika 3.2), s to razliko, da DVD-predvajalniki podatkov ne snemajo z enega, ampak z dveh različnih (DVD in CD) diskov.

32 angl. oversampling 33 angl. Lossless Coding Method

Page 54: UNIVERZA V MARIBORU FAKULTETA ZA ...zvoka se odbije od sten sobe in potuje po daljših poteh, kot direkten zvok in tako doseže ušesa nekoliko kasneje (pot B). Odbiti zvoki so tudi

46

Super Avdio CD podpira še dodatno funkcionalnost, ki ni povezana s kakovostjo glasbene reprodukcije, predstavlja pa zelo učinkovito orožje v borbi proti konkurenci za prevlado na trgu. Gre za tehnologijo PSP34 , s katero vnesemo na Super Avdio CD svojevrsten vodni znak. Ta je lahko v obliki slike ali teksta, viden ali neviden in ga je izjemno težko ponarediti, kar bo pomembno onemogočilo ali celo v celoti preprečilo nedovoljeno kopiranje in piratstvo. Če v SACD-predvajalnik vstavimo kopiran disk, ga naprava ne bo hotela predvajati. Razen tega bo naročnik diskov SACD lahko zahteval tudi posebno kodiranje glasbenega zapisa. V tekmi za primat na trgu bi lahko Super Avdio CD-ju pomembno pomagala tudi celostna vzvratna kompatibilnost, ki je DVD zgoščenke nimajo. Za razliko od DVD medija, katerega predvajalniki lahko predvajajo tako CD kot tudi DVD vsebine, diskov DVD ni možno predvajati na klasičnih CD –predvajalnikih. SACD predvajalniki nimajo težav s predvajanjem DSD ali CD strukturiranega zapisa, obratno pa bodo lahko predvajali SACD format zgoščenke tudi klasični CD predvajalniki [9]. Uporabili bodo t.i. “hibridne zgoščenke”. Lastnost hibridnih CD/DVD zgoščenk je, predvajanje na obstoječih CD avdio predvajalnikih kot tudi na SACD predvajalnikih. To je možno zato, ker so CD podatki zapisani na odbojni plasti, DVD podatki pa na prepustni plasti (Slika 3.3). Ker je DVD plast prepustna pri valovni dolžini 780nm (kar uporablja CD tehnologija), je moč zgoščenko predvajati tudi v povsem običajnih CD predvajalnikih.

Slika 3.3: Prikaz plasti DVD-ja.

Zgoščenke SACD so po eni strani zgoščenke DVD in zato tudi uporabljajo enako

tehnologijo (enaka velikost sektorja, popravljanje napak in modulacija) in enak datotečni sistem (UDF in ISO 9660) kot zgoščenke DVD [#16]. Rezultati SACD tehnologije dokaz, da se DVD vsebina vseeno lahko predvaja v CD predvajalnikih. Vendar pa je hibridne zgoščenke izredno težko izdelati, s tem pa se poveča tudi njihova cena. Zaradi tega je izredno težko napovedati kako se bodo hibridne zgoščenke v prihodnosti “prijele” potencialnega kupca, še posebej zato, ker je DVD-A zgoščenka cenejša.

Verjetnost napake (BER) na zgoščenki CD-DA je reda 10-10 (pribl. ena napaka na deset tisoč miljonov bitov). Glede na to, da s CD-ja beremo podatke s hitrostjo 4.3 Mb/s, je potreba po odpravljanju napak očitna. Z odpravljanjem napak bo mogoče 200 napak na sekundo odpraviti. Da bi dosegli takšen rezultat, CD uporablja dva osnovna postopka: preverjanje paritete za odpravo naključnih napak in križno prepletanje (CIRC), s katerim lahko popravimo večje napake v obliki rafalov35. Kot smo že omenili, sta za podatkovno kodiranje na zgoščenki CD razširjeni dve tehniki: CIRC – kodiranje s shemo za odkrivanje in popravljanje napak s križnim prepletanjem in modulacija osem na štirinajst (EFM) –

34 angl. Pit Signal Processing 35 angl. angl. burst errors

Page 55: UNIVERZA V MARIBORU FAKULTETA ZA ...zvoka se odbije od sten sobe in potuje po daljših poteh, kot direkten zvok in tako doseže ušesa nekoliko kasneje (pot B). Odbiti zvoki so tudi

47

procedura za odstranjevanje uspešnih enic pri zapisovanju na CD (omejitev zaradi načina zapisa na zgoščenko, ki je omejen s strani ločljivosti laserja).

CIRC uporablja dve korekcijske kode za dodatno odpravljanje napak in tri stopnje prepletanja za kodiranje podatkov, preden so zapisani na CD. Medtem ko predvajamo CD, CIRC izvaja popravljanje napak med dekodiranjem podatkov s CD-ja. Prepletanje se uporablja za preprečevanje naključnih napak. Podatki so premešani in ponovno postavljeni v niz tako, da zaporedne besede niso nikoli sosednje. Primer prikaza premešanja je na sliki 3.4.

Slika3.4: Primer prepletanja podatkov.

Napaka na mediju (npr. prah na CD-ju) lahko prepreči uspešnost branja številnih

zaporednih besed. Besede se po odpletanju postavijo na prave in izvorne lokacije.Tudi napake se prav tako premešajo. Tako izolirane napake lažje odpravimo. Prepletanje je še posebej uporabno pri večjih napakah t.i. rafalih napak36; zaporedne napake se pri odpletanju premešajo in so potem podobne naključnim napakam, ki so lažje popravljive. Križno prepletanje, ki se uporablja pri CIRC, gre še korak naprej. Podatki so prepleteni večkrat - preko kratkega in dolgega časovnega intervala. To poveča zmožnost odpravljanja večjih napak. Reed – Solomon koda, uporabljena v CIRC, je zelo učinkovita koda za popravljanje napak s pomočjo blokovnega preverjanja napak. Oddanim podatkovni besedi se doda dodatna informacija – blokovna koda. Za razlago Reed – Solomon kodiranja si poglejmo naslednji primer. Recimo, da so A, B, C in D štiri podatkovne besede in P in Q t.i. paritetne besede. Podatkovne besede so vstavljene v dve enačbi:

A ⊕ B ⊕ C ⊕ D ⊕ P ⊕ Q = 0 (3.1), α6 A ⊕ α5 B ⊕ α4 C ⊕ α3 D ⊕ α2 P ⊕ α Q = 0 (3.2).

36 angl. burst errors

Page 56: UNIVERZA V MARIBORU FAKULTETA ZA ...zvoka se odbije od sten sobe in potuje po daljših poteh, kot direkten zvok in tako doseže ušesa nekoliko kasneje (pot B). Odbiti zvoki so tudi

48

Znak ⊕ pomeni operacijo X-OR (po modulu 2), α je utežitvena konstanta. Če enačbi razrešimo za P in Q, dobimo: P = α A ⊕ α2 B ⊕ α5 C ⊕ α3 D (3.3), Q = α3 A ⊕ α6 B ⊕ α4 C ⊕ α D (3.4). Za α vzamemo vrednosti: α = 010, α2 = 100, α3 = 011, α4 = 110, α5 = 111, α6 = 101, α7 = 001 = 1, 0 = 000. Za odkritje napake v sprejetih podatkih, se izračunata dva modela napak, ali sindroma, po naslednjih enačbah: S1 = A’ ⊕ B’ ⊕ C’ ⊕ D’ ⊕ P’ ⊕ Q’ = EA ⊕ EB ⊕ EC ⊕ ED ⊕ EP ⊕ EQ (3.5), S2 = α6 A’ ⊕ α5 B’ ⊕ α4 C’ ⊕ α3 D’ ⊕ α2 P’ ⊕ α Q’ = α6 EA ⊕ α5 EB ⊕ α4 EC ⊕ α3 ED ⊕ α2 EP ⊕ α EQ (3.6). kjer so A’ do Q’ sprejete besede, EA do EQ pa napake vsake besede. Če ni napak, potem sta S1 = S2 = 0. Če je npr. A’ napačna, potem je S1 = EA in S2 = α6 S1. Napaka se torej pokaže, če sta sindroma različna od 0. Vrednost nepravilnih besed pa se lahko določi z razliko med utežitvenima faktorjema S1 in S2 [9].

Reed-Solomon kodirnik vzame blok podatkov in jim doda “redundantne” bite. Napake se lahko pojavijo med prenašanjem ali shranjevanjem iz več razlogov (npr. šum ali interferenca, praske ali umazanija na CD-ju itd). Reed-Solomon dekodirnik vzame vsak blok podatkov, odpravi napake in povrne originalne podatke. Število in tip napak, ki naj bi jih popravil, je odvisno od karakteristike kode. Reed-Solomon koda je specificirana kot RS (n,k) z s-bitnimi besedami. To pomeni, da kodirnik vzame k podatkovnih s-bitnih besed in doda paritetne besede, da dobi n bitno kodno besedo. Tako je n-k paritetnih besed za vsako s-bitno besedo. Reed-Solomon dekodirnik lahko popravi do t bitov v kodni besedi, ki vsebujejo napake, kjer je knt −=2 , (t je število popravljenih bitov) (3.7). Ko imamo podano bitno velikost besede, je maksimalna dolžina kodne besede (n) za Reed-Solomon enaka: 12 −= sn (3.8). Npr., maksimalna dolžina kodne besede z 8 bitnimi besedami (s=8) je 255 bitov. Slika 3.5 prikazuje tipično Reed-Solomon kodno besedo, t.i. “sistematično kodo”, ker podatki ostanejo nedotaknjeni in se jim paritetni biti samo dodajo.

Page 57: UNIVERZA V MARIBORU FAKULTETA ZA ...zvoka se odbije od sten sobe in potuje po daljših poteh, kot direkten zvok in tako doseže ušesa nekoliko kasneje (pot B). Odbiti zvoki so tudi

49

Slika 3.5: Reed-Solomon kodna beseda – sistematična koda.

Primer: Ena uporabnih Reed-Solomon kod je RS (255,223) za osem bitne besede.

Vsaka kodna beseda vsebuje 255 osem bitnih besed, od katerih je 223 besed podatkovnih in 32 besed paritetnih. Za to kodo je: n=255, k=223, s=8 2t=32, t=16. Kodirnik lahko samodejno popravi katerokoli 16 bitno napako; to je napako, dolgo do 16 bitov, kjer koli v kodni besedi.

Reed-Solomon kode lahko tudi skrajšamo tako, da namesto določenega števila podatkov vnesemo ničle v kodirniku, jih tako ne prenašamo, in potem ponovno vnesemo v dekodirnik.

Primer: Opisana koda v prejšnjem primeru RS (255,223) je lahko skrajšana v RS

(200,168). Kodirnik vzame blok z 168 podatkovnimi biti, shematično doda 55 bitov ničel in ustvari kodno besedo RS (255,223) ter tako prenaša samo 168 podatkovnih bitov in 32 paritetnih bitov.

Vrednost procesne moči, potrebne za kodiranje in dekodiranje Reed-Solomon kode je

povezana s številom paritetnih bitov na kodno besedo. Velika vrednost popravljenih napak t pomeni, da je lahko popravljenih veliko število napak, vendar pa tako kodirnik kot dekodirnik potrebuje večjo računsko moč, kot pri manjšem t. Ena besedna napaka pomeni, da je napačen posamezen ali niz bitov v besedi.

Primer: RS (255,223) lahko popravi 16 besednih napak oz. 16 napačnih bitov. V

najslabšem primeru se lahko 16 napačnih bitov pojavi posamezno, v vsaki besedi eden, in dekodirnik popravi 16 bitno napako, vendar mora pregledati 16 zlogov (oktetov). V najboljšem primeru pa se lahko pojavi 16 celih nepravilnih besed (vsi biti v besedi so napačni) in mora dekodirnik popraviti 128 (16*8) bitnih napak. Reed-Solomon kode se dobro izlažejo pri popravljanju “eksplozijskih” rafalov), kjer se pojavijo serije zaporednih napačnih bitov v kodni besedi.

Prednost uporabe Reed-Solomon kode je ta, da je verjetnost, da se pojavi napaka v

dekodiranem podatku veliko manjša, kot verjetnost napake, če ne uporabimo Reed-Solomon kode. To se tudi pogosto imenujemo kot “kodni prag37” .

Primer: Digitalni sistem je zasnovan, da obratuje pri deležu bitnih napak BER38=10-9 ,

kar pomeni, da je sprejet en napačen bit na 109 bitov. To lahko dosežemo z dvigom izhodne moči signala (kodiranja) ali z dodajanjem Reed-Solomon (ali katere druge

37 angl. coding gain 38 angl. Bit Error Ratio (Rate)

Page 58: UNIVERZA V MARIBORU FAKULTETA ZA ...zvoka se odbije od sten sobe in potuje po daljših poteh, kot direkten zvok in tako doseže ušesa nekoliko kasneje (pot B). Odbiti zvoki so tudi

50

vnaprejšnje korekcije napak39 ). Reed-Solomon sistemu omogoči, da vzdržuje željen delež bitnih napak z nižjo spektralno gostoto moči. Prihranjeno moč, ki jo dosežemo z Reed-Solomon kodiranje (v dB) imenujemo tudi kodno ojačanje [21].

Kot smo že omenili, CIRC uporablja križno prepletanje, ločevanje dveh kod za odkrivanje napak s prepletanjem. Tako ena koda lahko preveri točnost druge kode. Druga pomembna lastost križnega prepletanja je, da se vrednost popravljenih napak poveča, medtem ko se vrednost dodanih (paritetnih) bitov ne poveča [9]. Pri zapisovanju podatkov na CD, se uporablja modulacija EFM40. Meje med vdolbinami na CD-ju predstavljajo logično enico, sicer je to logična ničla. Meje med vdolbinami in presledki med vdolbinami, ne smejo biti preblizu skupaj, saj ločljivost laserja ne dopušča branja prehitrih sprememb. Ločljivost laserja je nekje 1 µm, kar odgovarja dolžini treh bitov (1 bit = 0,3 µm). Velja dogovor, da sta med dvema enicama vsaj dve ničli. Prav tako meje ne smejo biti predolge. Dogovor je, da so lahko maksimalno števolo ničel med dvema zaporednima enicama največ deset. Zato podatki, ki so zapisani na CD, ne ustrezajo dejanskim binarnim podatkom. Preden se dejanski podatki zapišejo na CD, je potrebna modulacija EFM. Z uporabo te transformacije, je regularnost maksimalnih in minimalnih dolžin dosežena [11]. Osem bitne besede so kodirane kot 14-bitne besede (17-bitne besede, saj se morajo dvema 14 bitnima besedama dodajo še tri bitni polnilni nizi, ker se mora prav tako upoštevati pravilo vstavljanja ničel), znane kot podatki kanala (channel bits, angl.), izbrane po specifičnem vzorcu, ki zadovolji dovoljenim dolžinam in občutljivosti laserja. Bilo bi neučinkovito shraniti 8 – bitno besedo direktno na disk, saj bi lahko bilo preveliko sprememb iz logične 1 na 0. 8 bitna beseda ima 256 mogočih kombinacij, vendar ima 14 bitna kar 16384 kombinacij, med katerimi lahko najdemo veliko takšnih, ki odgovarjajo dogovoru. Poleg tega ima 8 bitna beseda mnogo podobnih vzorcev in lahko hitro pride do napake že s spremembo samo enega bita. S 14 biti lahko izberemo edinstvene vzorce, ki tega ne dopuščajo. EFM tako posredno poskrbi tudi za odpravljanje možnih napak. Naslednja tabela 3.6 kaže nekaj pretvorb med 8 biti in 14 biti [8]. Tabela 3.6: Primer pretvorbe med 8 biti in 14 biti.

39 angl. Forward Error Correction 40 angl. Eight to Fourteen Modulation

Page 59: UNIVERZA V MARIBORU FAKULTETA ZA ...zvoka se odbije od sten sobe in potuje po daljših poteh, kot direkten zvok in tako doseže ušesa nekoliko kasneje (pot B). Odbiti zvoki so tudi

51

3.3 Poizvedba

Naključni dostop do zvočnih zapisov je lahko hiter in omogoča predvajanje delov digitalnega avdio niza. Bistveni tehnični problem je zvezni način iskanja in branja podatkov v obliki neprekinjenega pretoka vzorcev, ki se pošiljajo enoti za D/A pretvorbo. Dele avdio nizov označujemo tudi kot segmente in jih lahko identificiramo z začetnim časom in časom trajanja niza. Lokacija segmenta zahteva preslikavo začetnega časa niza v naslov segmenta, to je odmik v zvočnem zapisu. Naslov segmenta moramo preslikati v fizični naslov na trdem disku (preslikavo ponavadi izvede datotečni sistem). V primeru formata s konstantno podatkovno hitrostjo je pretvorba iz časovnega prostora v naslov enostavna, saj časovno kodo pretvorimo v naslov segmenta. Ko ne moremo neposredno preslikati časovnih označb v naslove, potrebujemo za naključni dostop indeks, ki določa naslov segmenta in njemu pripadajočo časovno kodo. Problem zagotavljanja zveznosti nastopi, ko neposredna preslikava med časovno označbo in naslovom ni mogoča, kar odpravimo z ustreznim namenskim pomnilniškim medijem. Ker je hitrost prenosa podatkov pri magnetnih diskih neprimerno večja, kot zahteva digitalni avdio zapis, obstaja možnost, da zapisujemo in beremo več avdio zapisov hkrati. V tem primeru je smotrno pozorno nadzorovati in osveževati seznam opravil na disku, velikost bloka in medpomnilnikov ter način zapisa.

3.4 Urejanje Obstajata dva formata digitalnega avdio urejanja:

- pristop urejanja na traku in - pristop urejaja na disku.

Naključni dostop v pristopu urejanja na disku bistveno poenostavlja proces urejanja. Izognemo se časovno zamudni uporabi trakov in previjaju, hkrati pa lahko hitro kopiramo. Tako pri prvem kot pri drugem načinu so zajete nasledje operacije urejanja avdio segmentov:

- rezanje - kopiranje in - vstavljanje.

Z vstavljanjem enega niza vzorcev v drugega lahko nastopi slišna motnja, šum, ki ga zaznamo kot klike – urejevalec mora paziti na zaljučenost zvočne krivulje. Za odpravo omenjene motnje (eden od načinov) se uporablja postopek križnega pojemanja. Urejanje izvedemo s povečanjem/zmanjšajem amplitud originalnega in vstavljenega segmenta v skupni točki vstavljanja (slika 3.7).

Slika 3.7:Primer križnega pojemanja digitalnega avdio zapisa.

Page 60: UNIVERZA V MARIBORU FAKULTETA ZA ...zvoka se odbije od sten sobe in potuje po daljših poteh, kot direkten zvok in tako doseže ušesa nekoliko kasneje (pot B). Odbiti zvoki so tudi

52

Digitalni zvok podpira tudi tehniko t.i. brezizgubnega urejanja. S to obliko urejanja so originalno zajeti segmenti dostopni preko seznama predvajanja, ki predstavlja podatkovno strukturo avdio zapisa z odmiki posameznih segmentov, njihovim trajanjem in vrstnim redom združevanja posameznih segmentov. Seznami predvajanja skrbijo za sledenje opravil med sejami urejanja. Npr. opravila, kot so rezanje, kopiranje in vstavljanje, se lahko izvedejo s preurejanjem in manipulacijo seznama predvajanja. Kot prednost brezizgubnega urejanja lahko izpostavimo zagotavljanje nedotakljivosti originalno zajetega avdia, hkrati pa se izognemo obsežnim in zamudnim operacijam kopiranja. Vpogled v seznam predvajanja dobimo s predvajanjem posameznih segmentov, na katere kažejo kazalci seznama. Prav tako lahko del seznama predvajanja “porušimo” tako, da ga nadomestimo z novim segmentom, ki odraža lastnosti in opravila “porušenega” seznama predvajanja. Pri urejanju avdia je v nekaterih točkah pomembno izbrati, kje se segmenti končajo ali začnejo. Omenjeni postopek se izkaže kot izjemno zahteven zaradi časovnega značaja avdia. Rezultat tega so številni poskusi in napake pri označevanju začetkov in koncev segmentov. Izkušeni urejevalci pogosto izberejo točko urejanja z ročnim previjanjem traku v predvajalniku naprej in nazaj. V ta namen digitalni sistemi ponujajo nekaj alternativ – obliko signala lahko prikažemo grafično, kar nudi urejevalcu vizualno oporo v kontekstu dinamičnih dogotkov (začetka in konca) v zvočnem zapisu. Druga alternativa pa omogoča zaznamovanje delov zvočnega zapisa med poslušanjem z značnicami41. uporabnik se kasneje vrne na začetek zazanamovanega segmenta in ga nato podrobneje ureja. Grafični prikaz značnic, ki so postavljene bodisi v sam signal ali pa na časovno os, pripomore k hitremu iskanju in izbiranju področij. Urejevalnik avdia mora označevanje z značnicami podpirati. Ob rezanju, kopiranju in vstavljanju obstaja tudi množica drugih operacij nad digitalnim avdio signalom. Primer spreminjanja nivoja glasnosti s spreminjanjem amplitud otipanih vrednosti je samo ena od ključnih operacij. Druge operacije se uporabljajo pri večkanalnem snemanju, npr. pri dodajajnju in brisanju posameznih sledi, mešanje sledi in spreminjanje relativnega časa s premikom ene sledi glede na drugo. Omenjene operacije lahko implementiramo na osebnih računalnikih ali delovnih postajah, vendar izvedemo visokokakovostno urejanje avdio signala ponavadi na namenskih avdio delovnih postajah. Te imajo posebno namensko strojno opremo za signalno procesiranje, specifična vodila in arhitekturo pomnilnika, ki so načrtovani za avdio zajemanje in predvajanje. Prav tako imajo namenske vmesnike za povezavo na zunanjo studijsko opremo. 3.5 Učinki in filtri Z namenskim delovnimi avdio postajami in v manjšem obsegu tudi s programsko opremo za avdio urejanje na osebnih računalnikih lahko z uporabo digitalnega procesiranja signala izvedemo številne posebne učinke z uporabo digitalnih filtrov. Odvisno od kompleksnosti učinka, števila v procesiranje vključenih kanalov in razpoložljivih računalniških zmogljivosti lahko procesiranje izvedemo tudi v stvarnem času.

41 angl. queue point

Page 61: UNIVERZA V MARIBORU FAKULTETA ZA ...zvoka se odbije od sten sobe in potuje po daljših poteh, kot direkten zvok in tako doseže ušesa nekoliko kasneje (pot B). Odbiti zvoki so tudi

53

Tipični učinki z digitalnim filtriranjem vključujejo: - zamik: z zamikom in povratno vezavo izvedemo učinek odmevanja in ponavljanja, - izenačevanje: izpostavimo, zmanjšamo ali uravnotežimo (izenačimo) določene

frekvenčne komponente (pasove) v advio segmentu, - normalizacija: ampitudo v segmentu normiramo tako, da jo povečamo ali

zmanjšamo na neko maksimalno dovoljeno vrednost, - zmanjševanje šuma: digitalno procesiranje uporabimo za zmanjšanje neželjenega

šuma, kot so npr. piski, brenčanje in šumenje, - časovno zgoščevanje in razredčevanje: trajanje segmenta podaljšamo ali skrajšamo

brez sprememb v poteku osnovne harmonske frekvence (ni sprememb v višini tona),

- premik višine tona: tonski potek segmenta spremenimo, ne pa tudi časa trajanja segmenta,

- stereoizacija: posamezno sled razdelimo v dve mono sledi (eno stereo sled) z različno avdio vsebino, in

- akustičnost okolja: obstoječi zvočni sledi dodamo značilnosti različnih akustičnih okolij, npr. odmev katedrale ali topi prizvok majhnega prostora ipd.

3.6 Digitalna avdio pretvorba

Končni nabor obravnavanih operacij zaključujejo operacije pretvorb med formati oz. preoblikovanje parametrov kodiranja znotraj enega formata zapisa digitalnega avdia. Kot zgled pretvorbe med formati navedimo razredčevanje ADPCM zapisa v sledi in pretvorbo v PCM, kot zgled preoblikovanja parametrov kodiranja znotraj formata digitalnega avdio zapisa pa povzorčenje PCM zapisa z nižjo frekvenco in nižjo ločljivostjo otipkov [2].

Page 62: UNIVERZA V MARIBORU FAKULTETA ZA ...zvoka se odbije od sten sobe in potuje po daljših poteh, kot direkten zvok in tako doseže ušesa nekoliko kasneje (pot B). Odbiti zvoki so tudi

54

4. GOVOR Ko smo v enem od predhodnih poglavij opisovali predstavitve digitalnega avdia, nismo izpostavili nobenih predpostavk v zvezi z njegovo vsebino. Avdio zapis lahko vsebuje najrazličnejše avdio oblike, kot so: filmska glasba, radijska poročila, glasovi živali ali kakršnekoli druge zvoke. Določene aplikacije, npr. govorna pošta, ne potrebujejo splošnosti avdio zvrsti, saj lahko za predstavitev avdio vsebine uporabijo specifično zvrs medija. Le-ta se nanaša zgolj na avdio vsebino aplikacije, to je v omenjenem primeru govor (slika 4.1) [2].

Slika 4.1: Primer časovnega poteka govornega signala, poteka formantov, energije in

osnovne harmonske frekvence ter spekter signala.

4.1 Govorna tehnologija Proces sporazumevanja ljudi s pomočjo govora je večplasten in zelo razsežen problem, ki zahteva veliko zbranost človeka, čeprav bi na prvi pogled lahko sklepali, da zanj to ne predstavlja posebnega napora. Hitro pa lahko ugotovimo, da zahteva govorna komunikacija popolno koncentracijo in človek običajno ne more ob tem opravljati zahtevnejših opravil, ki bi zahtevali večjo pozornost. Če želimo podobno sposobnost govorne komunikacije prenesti tudi na stroj, moramo najprej posamezne stopnje procesa komunikacije ustrezno opredeliti na področja govorne tehnologije. Področje govorne tehnologije lahko razdelimo v tri skupine:

- procesiranje shranjenega govornega signala, - pretvorba besedila v govor in - avtomatsko razpoznavanje govora.

Procesiranje shranjenega govornega signala vključuje sintezo govora s pomočjo vnaprej posnetega govornega signala, ki ga lahko računalnik reproducira na več različnih načinov. Tako lahko shranimo v pomnilnik računalnika daljša govorna sporočila, ki jih računalnik

Page 63: UNIVERZA V MARIBORU FAKULTETA ZA ...zvoka se odbije od sten sobe in potuje po daljših poteh, kot direkten zvok in tako doseže ušesa nekoliko kasneje (pot B). Odbiti zvoki so tudi

55

pri izvajanju aplikacije, npr. glasovnega sporočanja, v ustreznih trenutkih prevaja. Lahko pa govorni signal vnaprej posnamemo in ga nato z ustreznim postopkom razdelimo v manjše odseke, ki jih pri izvajanju aplikacije sestavimo v posamezna sporočila. Govor lahko generiramo tudi samo s pomočjo poznavanja ustreznega besedila. Sistemi avtomatske pretvorbe besedila v govor npr. omogočajo izvedbo aplikacij s področja avtomatskega govornega posredovanja informacij iz tekstovnih podatkovnih baz. Avtomatsko razpoznavanje govora omogoča tekstovni zapis ali kak drug način interpretacije povedanega. Področje, ki je povezano s področjem avtomatskega razpoznavanja govora, je področje ugotavljanja identitete govorca – identifikacija in verifikacija govorca. Čeprav lahko postavimo za vsa omenjena področja skupna izhodišča, pa vsako predstavlja drugačen vidik procesiranja govora. Uporabljeni postopki, ki izvirajo iz skupne teorije, se lahko pri uporabi v različnih aplikacijah med seboj razlikujejo. Tako npr. pri aplikacijah, kjer uporabljamo shranjen govorni signal, le-tega komprimiramo (stisnemo), preden ga shranimo na pomnilniški medij. Tako zmanjšamo obseg podatkov, ki jih moramo shraniti. Pri tem lahko uporabimo katerikoli izmed množice poznanih postopkov komprimiranja. Tudi sistem avtomatske pretvorbe besedila v govor lahko izvedemo na več načinov. Govor lahko generiramo s pomočjo poznanih algoritmov avtomatske sinteze govora ali pa s pomočjo “lepljenja” zelo kratkih odsekov vnaprej posnetega govornega signala. Vse te postoke lahko pri posameznih aplikacijah uporabljamo samostojno ali v kombinaciji z drugimi. Tako lahko npr. sistem govorne pošte uporablja vnaprej shranjena sistemska sporočila kot tudi govorne odseke, ki jih uporabljamo kot pozive. Za krmiljenje sistema govorne pošte lahko ob tem uporabljamo tudi sistem avtomatskega razpoznavanja govora. Shranjeno besededilo lahko nadalje uporabljamo za izgovorjavo imen in naslovov, ki bi jih bilo sicer preveč za vnaprejšnje snemanje [4]. 4.2 Kodiranje govora

Pri govornih avdio signalih lahko dosežemo relativno nizke podatkovne hitrosti s poznavanjem procesov produkcije govora. Metode za kodiranje avdio signala predstavljajo tehnike procesiranja v časovnem prostoru, ki pretvorijo časovno spremenljivi signal v digitalizirane vzorce – otipke. Alternativno lahko temelji digitalna predstavitev avdia na opisu spektra frekvenc ali na kakšnem drugem opisu strukture signala. Stopnja zgoščevanja signala pa je odvisna od narave signala samega. Npr. en sam ton je najbolje opisan s frekvencami, vendar tega ne moremo trditi za šumne signale.

Tehnike kodiranja govora se opirajo na notranjo (neločljivo povezano) strukturo govornega signala. Npr. kodiranje z linearno predikcijo (LPC – Linear Prediction Coding) kakor tudi nekatere različice PCM predvidijo vzorec iz predhodnih vzorcev. LPC uporablja model produkcije govora s predvidevanjem vzorcev. Posledica takšnega kodiranja signala je majhna podatkovna hitrost. Npr. podatkovna hitrost za govorni signal, zakodiran po standardu LPC-10, znaša približno 2400 b/s ali 1/15 najnižje podatkovne hitrosti za avdio dekodiranje/kodiranje. Kakovost takšnega govornega signala zakodiranega po standardu LPC-10 je slaba in ni primerna za veliko aplikacij. Vendar pa je kljub temu kodiranje govora primerno, kadar je pomnilnik omejen, zahtevani pa so dolgi govorni segmenti.

Page 64: UNIVERZA V MARIBORU FAKULTETA ZA ...zvoka se odbije od sten sobe in potuje po daljših poteh, kot direkten zvok in tako doseže ušesa nekoliko kasneje (pot B). Odbiti zvoki so tudi

56

4.3 Sinteza govora Alternativa k produkciji govora iz dekodiranega posnetka je sinteza govora neposredno iz besedila. Obstaja množica cenenih komercialnih programov za samodejno tvorjenje govora iz besedil. Današnja tehnologija delovnih postaj in osebnih računalnikov zagotavlja dovolj veliko procesno moč, da lahko takšne programe poganjamo v stvarnem času. Količina vhodnih podatkov pri sintezi iz besedila v govor je zelo majhna, in sicer nekaj 100 bitov na sekundo. Tako bi lahko za eno uro govornega signala zasedli približno 150 kb pomnilniškega prostora. Rezultat takšne sinteze je sicer govor slabše kakovosti s pomanjkanjem prozodije (členjenja segmentov, intonacije, naglasa …), vendar se kakovost sintetiziranega govora izboljšuje z naprednimi sintetizatorji in z uporabo besedil, ki vsebujejo prozodično informacijo (prozodično označena besedila) [2].

Page 65: UNIVERZA V MARIBORU FAKULTETA ZA ...zvoka se odbije od sten sobe in potuje po daljših poteh, kot direkten zvok in tako doseže ušesa nekoliko kasneje (pot B). Odbiti zvoki so tudi

57

5. DOLBY LABORATORIES

V preteklosti je bilo razvitih več sistemov za poudarjanje prostorskega (surround42) vtisa pri reprodukciji zvoka in izboljšanje kvalitete zvoka pri predvajanju. Prvi in nadaljnji problemi, s katerimi so se inovatorji soočili in reševali od začetka šestdesetih let dvajsetega stoletja, je bilo izboljšati analogno snemanje glasbe brez slišnih efektov, ki se pojavijo pri snemanju na magnetni trak. Ena glavnih korporacij, ki se je lotila tega problema, je Dolby Laboratories (v nadaljevanju Dolby). Njihova osnovna tehnologija (tako analogna kot digitalna) je sistem za signalno procesiranje, ki bi izboljšal osnovne kvalitete zvoka in omogočil uporabo večkanalnega prostorskega zvoka v aplikacijah, kot so zvočni in video trakovi, filmski zvočni trakovi, DVD – ji, računalniške in video igrice ter televizijsko, satelitsko in kabelsko oddajanje. Nekatere Dolby tehnologije so vljučene v profesionalne avdio produkte, kot tudi v procesorje za kino zvoke in digitalne avdio kodeke, ki se po svetu uporabljajo v snemalnih in postprodukcijskih studijih, kinodvoranah, pri snemanju duplikatov iz trakov in diskov ter pri oddajanju. Ostale Dolby tehnologije so licenčno implementirana integrirana vezja v potrošniških produktih, kot so kasetni in DVD predvajalniki, hišni kino sistemi in osebni računalniki (PC - ji). Pregled Dolby tehnologij prikazuje preglednica 5.1 [7].

Na koncu šestdesetih in začetku sedemdesetih let prejšnjega stoletja je Dolby zrevolucioniral snemanje na kasete (magnetne trakove) s sistemom za odstranjevanja šuma Dolby A NR (za profesionalno rabo) in sistemom za odstranjevanje šuma Dolby B NR (za potrošniško rabo). Kasneje v sedemdesetih je zrevolucioniral filmski zvok z analognim Dolby Stereo zvočnim sistemom. Dolby Stereo ima štiri zvokovne kanale za kino-dvorane; trije zvočni kanali spredaj (levi in desni za glasbo ter učinke in center za dialoge) in “ambientni” kanal za učinke in atmosfere. Tabela 5.1: Pregled Dolby tehnologij. Analogne tehnike

snemanja Digitalno avdio

kodiranje Zvok za film

Ambientni zvok za široko

potrošnjo A-type NR AC-1 Dolby Stereo Dolby Surround B-type NR AC-2 Dolby SR Dolby Surround Pro Logic C-type NR Dolby Digital (AC-3) Dolby Digital Dolby Surround ProLogic II

Spectral Recording (SR)

Dolby E

Dolby Digital Surround EX

Dolby Digital

S-type NR MLP Lossless Dolby Headphone

HX Pro AAC Dolby Virtual Speaker Virtual Dolby Surround Virtual Dolby Digital

42 angl. obkroženje (ambient)

Page 66: UNIVERZA V MARIBORU FAKULTETA ZA ...zvoka se odbije od sten sobe in potuje po daljših poteh, kot direkten zvok in tako doseže ušesa nekoliko kasneje (pot B). Odbiti zvoki so tudi

58

V osemdesetih sta snemanje na kasete in filmski zvok doživela izboljšave z uporabo sistema Dolby SR43. Dolby je prav tako revolucioniral “hišni kino” v poznih osemdesetih in začetku devetdesetih s sistemom Dolby Surround in kasneje s sistemom Dolby Surround Pro Logic. V bistvu je uporabljena Dolby Stereo tehnologija v hišnem okolju za video trakove in laserske diske44, kar nam omogoča, da lahko doma dosežemo štiri kanalni - “kino”zvok. Današnji sistemi Dolby Digital gredo korak naprej in zagotavljajo šest kanalov kristalno čistega digitalnega “ambientnega” zvoka. Levi in desni kanal ter sredinski kanal (center) zagotavljajo usmerjanje zvoka od spredaj in točno določeno pozicijo dialoga. Ločena ambientna kanala levo in desno ob straneh ter v sredini zadaj omogočajo ambientne in ostale dopolnitvene zvoke. Dodaten nizkotonski zvočnik dopolnjuje zvočni vtis na področju posebnih učinkov nizkih frekvenc.

Osnovni princip delovanja današnje tehnologije Dolby Digital je zasnovan na analognem sistemu odstranjevanja šuma, ki se uporablja več kot trideset let. Sistem odstranjevanja šuma zniža nivo šuma, kadar ni prisotnega zvočnega signala, in dovoli glasnim, močnim zvočnim signalom, da skrijejo ali “zamaskirajo” šum (z maskiranjem izkoristimo psiho-akustični pojav, znan kot “avditorno maskiranje”). Tudi kadar se pojavi zvočni signal samo v nekaterih delih spektra, sistem odstranjevanja šuma Dolby odstrani šum, ki se pojavi v preostalem spektru, da ostane šum nezaznaven. Zvočni signali lahko zamaskirajo le šum, ki se pojavi pri frekvencah v njihovi neposredni bližini.

Kadar snemamo na analogne in na digitalne medije, kot je npr. CD, je očitno, da digitalno kodiranje, ki se uporablja na CD-jih npr. PCM, zavzema preveliko podatkovno hitrost, da bi bilo shranjevanje ali oddajanje v takem formatu zapisa smiselno kaj šele ekonomično, še posebno pri večkanalnih zvočnih posnetkih. Zato je bila razvita nova oblika digitalnega zvočnega kodiranja – “perceptualno” kodiranje. Razvito je bilo z namenom uporabe nižjih podatkovnih hitrosti z minimalno opazno znižano zvočno kvaliteto. Dolby-eva tretja generacija zvočno kodirnega algoritma je AC-3, narejen predvsem za HDTV avdio kodiraje (opisan bo kasneje).

V filmski industriji je zvočni zapis filma Dolby Digital optično kodiran na ozek del filmskega traku (longitudinalno), med luknjicami za kolešček vlečnega mehanizma (slika 5.1). S tem, ko je zvočni zapis zapisan na tak način, obstaja zapisan vzporedno z analognim zapisom in ne potrebuje drugega medija, kot je npr. CD. Fotografski, ali optični zapis filmskega zvoka, je prva metoda zapisa zvoka na film. Danes ostaja standard za analogne in digitalne oblike.

Slika 5.1: Digitalni in analogni zapis zvoka na filmskem traku.

43 angl. Spectral Recording 44 angl. LD – Laser Disk

Page 67: UNIVERZA V MARIBORU FAKULTETA ZA ...zvoka se odbije od sten sobe in potuje po daljših poteh, kot direkten zvok in tako doseže ušesa nekoliko kasneje (pot B). Odbiti zvoki so tudi

59

V potrošniški elektronski industriji je Dolby Digital prisoten pri laserskih diskih, kot standardni zvočni zapis na DVD-jih, standardni zvočni format za HDTV in se uporablja pri distribuciji digitalnega TV signala po kabelskih sistemih in pri satelitskem prenosu [#18]. 5.1 Tehnologije analognega snemanja Na začetku so se pri Dolby-u lotili problema, kako izboljšati analogno snemanje glasbe brez slišnih učinkov, ki se pojavijo pri snemanju na magnetni trak. Magnetni trakovi ne zmorejo tako natančne reprodukcije, kot CD-ji. Razpoložljiv dinamični razpon (med šumom kasete in najvišjim nivojem signala - SNR največ 50-60dB), ki ga lahko dosežemo pri snemanju in še ne popači posnetka, je odvisna od magnetnega traku, na katerega snemamo. Četudi snemamo iz CD-ja, kjer ni šumov pri reprodukciji, pri predvajanju še vedno slišimo hreščanje v premoru med dvema pesmima. To hreščanje, ki lahko pokvari kvaliteto predvajanja glasbe, povzročijo magnetni delci na traku in se vedno pojavi pri predvajanju magnetnega traku [#8]. Rešitev je Dolby-eva prva inovacija A-type Noise Reduction – Dolby A (A-tip odstranjevanja šumov) je bila predstavljena leta 1965. Originalno je namenjen za uporabo v profesionalnih snemalnih studijih, za snemanje tišjih originalnih posnetkov45. Kasneje se je raba sistema Dolby A razširila v filmske studije za izboljšavo filmskega zvoka. Za sitemom Dolby A je nastal sistem Dolby B (B-type NR), ki je bil namenjen širokopotrošniškim snemalnikom kaset in v predpripravi za predposnete kasete – originale in se je obdržal vse do danes, saj se še kar uporablja v raznih kasetnih enotah inpogonih. Za tem je bil razvit sistem Dolby C (C-type NR) s ciljem, da bi odstranil dvakrat več šuma, kot Dolby B, predstavljal pa je tudi nadaljne inovacije za boljše predvajanje kaset (spektralni zamik in saturacijska zapora46). Danes je, skupaj s sistemom Dolby B, vsebovan v mnogih nizko in srednje kakovostnih kasetnih enotah.

Dolby SR (Spectral Recording) je predstavljal naslednjo generacijo za profesionalne snemalne studije in je bil predstavljen leta 1986. Je več kot sistem odstranjevanja šumov, saj poveča tudi celotno dinamično območje analognega medija na nivo, ki je enak ali boljši, kot pri digitalnih formatih. Danes so skoraj vsi filmi, posneti na 35 milimeterskih trakovih, snemani v tehniki Dolby SR. V tabeli 5.1 je naveden pri filmskih zvokih tudi tip S-type NR, ki je bil razvit iz Dolby SR. Predstavlja najvišjo raven analognega snemanja na kasete in vsebuje večino lastnosti tehnike Dolby SR. Vsebovan je v srednje in visoko kakovostnih kasetnih enotah, ki lahko snemajo glasbo primerljivo s CD kvaliteto.

Tehnologija HX Pro (Dolby HX Pro) je tehnologija snemanja kaset, ki omogoča ujeti glasne prehode(kjer je jakost instrumentov večja) z manjšo izgubo visokih frekvenc in manjšim popačenjem. Poleg uporabe v kasetnih enotah se veliko uporablja v snemalni industriji za izboljšanje kakovosti v predposnetih kasetah. Dolby HX Pro je samo snemalni proces in ne potrebuje dekodiranja pri predvajnju[#7]. 5.2 Digitalno avdio kodiranje Algoritmi, uporabljeni v Dolby-evih digitalnih avdio tehnologijah, ki so osnovane na raziskavah človeškega sluha, omogočajo, da pri shranjevanju ali prenašanju digitalnega avdia uporabimo manj podatkov, kot bi drugače bilo potrebno.

45 angl. master tape 46 angl. Spectral Skewing Antisaturation

Page 68: UNIVERZA V MARIBORU FAKULTETA ZA ...zvoka se odbije od sten sobe in potuje po daljših poteh, kot direkten zvok in tako doseže ušesa nekoliko kasneje (pot B). Odbiti zvoki so tudi

60

AC-1, prvi Dolby-ev digitalni avdio kodirni sistem je bil predstavljen leta 1984. Izboljšana oblika adaptivne delta modulacije je bila razvita za aplikacije, kot so satelitski sistemi z direktnim oddajanjem in to v času, ko je bil sistem z digitalnim signalnim procesiranjem zelo drag. AC-1 predstavlja kompleksen in enostaven dekodirnik, ki se masovno uporablja v potrošniških sprejemnikih.

AC-2 je algoritem, osnovan na adaptivni transformaciji, ki združuje profesionalno avdio kvaliteto z nizkim bitnim razmerjem in znatno zmanjša kapaciteto podatkov, ki so potrebni v aplikacijah, kot so satelitske in zemeljske povezave. Algoritem uporablja več-pasovni pristopz izrabo prednosti psihoakustičnega maskiranja, medtem ko shema parcialne adaptivne določitve bita drži kompleksnost kodeka relativno nizko. Uporablja se v snemalnih in postprodukcijskih studijih za namene, kot je daljinsko nadzorovanje in ponovno snemanje dialogov.

Dolby E je profesionalno avdio kodiranje, razvito za pomoč pri spreminjanju oddajnih in dvokanalnih pripomočkov v večkanalni avdio. Dovoljuje AES47/EBU48 avdio par ali enojen par digitalnega avdio traku, za prenos do osem kanalov kvalitete oddajnega avdia za postprodukcijo in distribucijo. Med drugimi prednostmi, se z Dolby E kodiran avdio lahko ureja, dekodira in ponovno kodira večkrat, ne da bi prišlo do slišnih izgub.

Meridian Lossless Packing (MLP) je “brezizgubni” kodirni sistem, specificiran za DVD-Avdio, ki zgosti PCM podatke z natančnostjo bitnega kodiranja. MLP efektivno podvoji pomnilniški prostor, ne da bi vplival na kvaliteto visoko ločljivega PCM zvoka. Vsi DVD-Avdio predvajalniki so opremljeni z MLP dekodirnikom. MLP sistem kodiranja zgošča PCM otipke pribl. dva proti ena. MLP se razlikuje od dojemljive ali izgubne podatkovno kodirne sheme, kot je Dolby Digital ali DTS (sledita v nadaljevanju poglavja), kjer pri zgoščevanju podatkov odstranita nekaj avdio vsebine, ki jo ocenita kot nepomembno. MLP ne spreminja končnega dekodiranega signala, ampak samo “pakira” avdio podatke tako, da lahko enostaven dekodirnik dekodira originalni akustični signal bit po bit. Primer podobnega brezizgubnega kodirnega sistema za računalniške podatke je PKZip, ki zgošča/razredčujepodatke bit po bit.

Advanced Audio Coding (AAC) je visoko kvalitetna avdio kodirna tehnologija za aplikacije oddajanja in elektronsko glasbene distribucije. Učinkovitost kodiranja je boljša od MP3, zagotavlja večjo kvaliteto zvoka pri nižji bitni hitrosti. Razvit in specificiran je s strani štirih korporacij (AT&T, Dolby Laboratories, Fraunhofer IIS in Sony Corporation), in ga proizvajalci strojne in programske opreme priznavajo kot naslednika MP3 [#14].

Dolby Digital (AC-3) je novejša tehnologija kodiranja in je bila sprejeta s strani ATSC49 kot zvočni standard za visokoločljivo televizijo (HDTV50) v Združenih Državah Amerike. Prav tako se uporablja v potrošniških medijih (laserski diski, digitalni video diski) in direktnem satelitskem oddajanju. AC-3 je fleksibilna tehnologija zvokovno podatkovnega kodiranja, ki lahko kodira mnogo zvočnih formatov v en sam nizko hitrostni bitni niz. Podpira do osem kanalno konfiguracijo, od navadnega mono in stereo formata do “ambientnega” formata s šestimi diskretnimi kanali (levi, center, desni, levi “ambientni”, desni “ambientni”, nizki toni). AC-3 specifikacija bitnega niza dovoljuje frekvenco vzorčenja 48 kHz, 44,1 kHz ali 38 kHz in podpira podatkovne hitrosti od 32 kb/s do 640 kb/s. Blok diagram AC-3 kodirnika prikazuje slika 5.15. 47 angl. Audio Engineering Society 48 angl. European Broadcasting Union 49 angl. Advanced Television System Committee 50 angl. High Definition Television

Page 69: UNIVERZA V MARIBORU FAKULTETA ZA ...zvoka se odbije od sten sobe in potuje po daljših poteh, kot direkten zvok in tako doseže ušesa nekoliko kasneje (pot B). Odbiti zvoki so tudi

61

Slika 5.16: Blok diagram AC-3 kodiranja.

Kodiranje se izvrši v frekvenčni domeni in uporablja 512 točkovno MDCT51 s 50% prekrivanjem okvirov. V primeru prehodnih signalov je izboljšana predstavitev dosežena z uporabo blokovno – preklopne tehnike, kjer se izračunavata dve 256 točkovni transformaciji namesto ene 512 točkovne. Pri procesu pretvorbe s plavajočo vejico se koeficienti transformacije pretvorijo pare eksponent / mantisa (mantisa = decimalni del logaritma). Mantise so nato kvantizirajo s spremenljivim številom bitov, osnovanih na modelu parametrične bitne razporeditve52. AC-3 model parametrične bitne razporeditve uporablja principe psihoakustičnega maskiranja, da se odloči, koliko bitov mora priskrbeti za vsako mantiso v danem frekvenčnem pasu. V odvisnosti od dane stopnje maskiranja je lahko določenim mantisam dodeljenih manj bitov ali celo nič. To zmanjša število bitov, ki so potrebni za predstavitev izvora zvoka, za ceno dodanega neslišnega šuma.

Za razliko od drugih kodirnih sistemov, AC-3 poda dekodirniku rezultate bitne razporeditve v bitnem nizu. Uporabljen je parametrični pristop, v katerem kodirnik sestavi svoj maskirni model, osnovan na transformaciji koeficientnih eksponentov in nekaj ključnih signalno odvisnih parametrov. Te parametre poda dekodirniku v bitnem nizu in uporabi mnogo manj bitov, kot bi bilo potrebno za prenos nezgoščenih (surovih) vrednosti razporejenih bitov. V dekodirniku je bitna razporeditev rekonstruirana na osnovi eksponentov in parametrov bitne razporeditve.

Učinkovitost AC-3 kodiranja se še poveča, če naraste število kanalov izvora, ker se uporablja globalno bitno pozivanje53 in visoko frekvenčno združevanje54. Tehnika globalnega bitnega pozivanja omogoča bitnemu razporejevalniku, da razcepi razpoložljive bite med zvočne kanale tako kot je v osnovi potrebno. Če je eden ali več kanalov neaktivnih v določenem trenutku, bo ostalim kanalom dodeljenih več bitov, kot bi jih bilo, če bi bili aktivni vsi kanali. Povezovanje je uporabljeno za nadaljnje zgoščevanje potrebne podatkovne hitrosti visoko frekvenčnega obsega zvočnega spektra akustičnega signala. Pri visokih frekvencah uho ne more zaznati posmeznih period zvočnega signala, ampak se odzove samo na ovojnico signala. Povezovanje zmajša visokofrekvenčne komponente soodvisnih (koreliranih) kanalov v posamezno povezane kanale in generira dodatno verigo podatkov, ki opisujejo spektralno ovojnico posameznega kanala. Ker je povezovanje potencialni izvor “artefaktov”, je njegova uporaba omejena na nizke podatkovne hitrosti. 51 angl. Modified Discrete Cosine Transformation 52 angl. parametric bit allocation model 53 angl. global bit pool 54 angl. high frequency coupling

Page 70: UNIVERZA V MARIBORU FAKULTETA ZA ...zvoka se odbije od sten sobe in potuje po daljših poteh, kot direkten zvok in tako doseže ušesa nekoliko kasneje (pot B). Odbiti zvoki so tudi

62

AC-3 bitni nizi so sestavljeni iz okvirov (slika 5.16), ki predstavljajo od vseh kodiranih kanalov, konstantni časovni interval 1536 PCM vzorcev.

Slika 5.17: AC-3 struktura okvira.

Vsak okvir ima določeno velikost, ki je odvisna samo od frekvence vzorčenja in kodirane podatkovne hitrosti. Vsak okvir je samostojen objekt in si s prejšnjimi okviri deli samo inherentno transformirano prekrivanje v MDCT. Na začetku vsakega okvira sta polji SI (sinhronizacijska informacija) in BSI55 (informacija bitnega niza). Polja SI in BSI opisujeta konfiguracijo bitnega polja, ki vsebuje frekvenco vzorčenja, podatkovno hitrost, število kodiranih kanalov in posamezne ostale sistemsko–nivojske elemente. Tu sta še dve CRC besedi, ena na začetku in ena na koncu okvira, ki zagotavljata zaščito pred napakami. Znotraj vsakega okvirja je šest zvočnih blokov, vsak predstavlja 256 PCM vzorcev na kodirani kanal (slika 5.17).

Slika 5.18: AC-3 zvočna blok struktura.

Zvočni blok vsebuje blok t.i. preklopnih zastavic56, koordinate povezovanja, eksponente, parametre bitne premaknitve in mantise. Delitev podatkov je dovoljena znotraj okvira tako, da je informacija prisotna v bloku 0 lahko ponovno uporabljena v nasledjih blokih. Pred koncem okvira je še dodatno polje podatkov “AUX”, v katerega lahko izdelovalec sistema vključi kontrolne ali statusne informacije v bitni niz. AC-3 kodiranje je bilo zasnovano kot kompletna zvočna podsistemska rešitev, ki vključuje mnoge značilnosti, ki niso nujo povezane z nizko bitno hitrostjo kodiranja. Te značilnosti vsebujejo zgoščevanje dinamičnega območja primerno za potrošniško zvočno predvajanje, normalizacijo dialogov in mešanje večkanalnega zvoka v določeno število izhodnih kanalov [#15]. Prav to omogoča vsakemu potrošniškemu predvajalnemu sistemu, ki ima vgrajen Dolby Digital, da predvaja program kodiran po shemi Dolby Digital 5.1, ne glede na konfiguracijo kanalov. Mono ali dvo kanalni (stereo) potrošniški dekodirnik samodejno ustvari mono, stereo ali Dolby ambientni signale levo/desno z mešanjem večkanalnega programa (slika 5.18). Med produkcijo, postprodukcijo ali prenašanjem se shemi Dolby Digital doda dodatna t.i. meta informacija, ki identificira format zapisa filmskega zvoka Dolby Digital [#18].

55 angl. Bit Stream Information 56 angl. switch flags

Page 71: UNIVERZA V MARIBORU FAKULTETA ZA ...zvoka se odbije od sten sobe in potuje po daljših poteh, kot direkten zvok in tako doseže ušesa nekoliko kasneje (pot B). Odbiti zvoki so tudi

63

Slika 5.19: Dolby Digital mešanje

5.3 Stereofonski pojav Pri prvotnih radijskih prenosih koncertov in drugih glasbenih del so bili poslušalci vedno prikrajšani za občutek prostorskega dogajanja. Medtem ko so na koncertu slišali zveneti posamezna glasbila iz različnih smeri, je vsa doma reproducirana glasba prihajala vedno in samo iz zvočnika. Želja izboljšati to pomankljivost je precej stara in tudi število tozadevnih poskusov ni ravno majhno. Podobno kot je prostorsko gledanje posledica gledanja z dvema očesoma, je tudi prostorsko poslušanje posledica poslušanja z dvema ušesoma. Iz slike 5.19 lahko povzamemo bistvene elemente stereofonskega prenosa in poslušanja glasbe. Na levem primeru (a) vidimo zgoraj poslušalca (1) v koncertni dvorani, ki posluša z obema ušesoma in lahko ugotovi, da prihaja zven klavirja z leve, violine pa z desne strani. Isti koncert sprejema v dvorani tudi mikrofon in ga prenaša do oddaljenega zvočnika, kjer posluša doma drugi poslušalec (2).

Slika 5.20: Primer monofonskega in stereo prenosa.

Ta lahko ugotovi, da igrata klavir in violina, ne more pa določiti, katero glasbilo je na levi strani in katero na desni strani odra. V primeru (b) se isti koncert snema z dvema mikrofonoma. Prav tako se ga po dveh ločenih vodih (kanalih) prenaša do oddaljenega poslušalca (2) in tam reproducira z dvema ločenima in primerno razmaknjenima zvočnikoma. V levem kanalu je sedaj zven klavirja močnejši, v desnem pa zven violine in poslušalec zlahka ugotovi, kje stoji eno in kje drugo glasbilo. Vidimo, da potrebujemo za stereofonski prenos snemanje z dvema ločenima mikrofononoma (ali enim dvojnim), prenos po dveh ločenih kanalih in povezavo z dvema ločenima in primerno razmaknjenima

Page 72: UNIVERZA V MARIBORU FAKULTETA ZA ...zvoka se odbije od sten sobe in potuje po daljših poteh, kot direkten zvok in tako doseže ušesa nekoliko kasneje (pot B). Odbiti zvoki so tudi

64

zvočnikoma. Zaradi funkcionalne podobnosti z levim in desnim ušesom imenujemo kanala levi in desni kanal [9]. 5.4 Filmski zvoki

Dolby Stereo je bil predstavljen leta 1975 in je bil prvi prispevek filmskem zvoku. To je večkanalni analogni optični (tudi fotografski) zvočni zapis na 35 mm filmskem magnetnem traku57. Dolby magnetni trakovi imajo matrično kodirana dva zvočna zapisa s štirimi kanali: levi, center, desni zvočnik za filmskim platnom in četrti, “ambientni” kanal, za ambientni zvok in specialne učinke (slika 5.20 prikazuje postavitev zvočnikov v kino dvorani). Ostale izboljšave vključujejo uporabo sistema odstranjevanja šuma Dolby A, da znižajo sikanje in pokanje, ki je povezano z optičnimi zvočnimi zapisi, in izenačevanje za uravnavo zvočnega sistema v kinodvorani na standardno odzivno krivuljo.

Dolby SR, je naprednejši snemalni proces predstavljen leta 1986, ki je bil uporabljen za optične zvočne zapise Dolby stereo (namesto Dolby A). Analogni SR zvočni zapisi imajo izboljšano dinamično območje in jih danes najdemo na skoraj vseh 35 mm magnetnih trakovih. SR trakovi omogočajo predvajanje v vsakem kinu, tudi če ni opremljen za digitalno predvajanje in zagotavlja podporo v primeru problemov z digitalnimi trakovi.

Dolby Digital, predstavljen leta 1992, je prevzel ime od sheme zvočnega kodiranja Dolby Digital (AC-3) in je danes najbolj razširjen digitalni ambientni format ter hkrati osnovni format DVD zgoščenke. Predstavlja digitalni optični zvočni zapis, zapisan med vlečnimi utori (perforacijo traku) na 35 mm magnetnem traku. Kompatibilen je z analognim magnetnim trakom s shemo Dolby SR. Dolby

Slika 5.21: Analogni Dolby kino sistem.

Digital ima pet polno območnih kanalov; levi, center, desni in neodvisna, levi in desni “ambientni” kanal (slika 5.21). Šesti kanal, včasih imenovan “kanal .1”, pokriva samo najnižjih 10% slišnega področja, to so nizko frekvenčni zvočni učinki, ki jih predvaja aktivni nizkotonski zvočnik58.

57 angl. multichannel analog optical soundtrack for 35 mm prints 58 angl. subwoofer

Page 73: UNIVERZA V MARIBORU FAKULTETA ZA ...zvoka se odbije od sten sobe in potuje po daljših poteh, kot direkten zvok in tako doseže ušesa nekoliko kasneje (pot B). Odbiti zvoki so tudi

65

Slika 5.22: Dolby Digital kino sistem.

Dolby Digital Surround EX doda tretji “ambientni” kanal formatu kodiranja Dolby

Digital, ki je analogno moduliran v levi in desni “ambientni” kanal. Zvok tretjega “ambientnega” kanala se reproducira z zvočnikov izza občinstva, medtem ko sta levi in desni “ambientni” kanal reproducirana s stranskih zvočnikov. Dodatni kanal še bolj poudari natančno obkrožanje z zvokom in boljšo lokalizacijo čez celo dvorano (slika 5.22) [#7].

Slika 5.23: Dolby Digital Surround EX kino sistem.

5.5 Hišni kino z “ambientimi” zvoki Hišni kino59 je avdio/video predvajalni sistem, ki nam približa občutek vizualnega in slušnega dojemanja filma kot v kinu. “Ambientni” zvok, ki pretvori klasično gledanje televizije v hišni kino, prihaja iz programskega medija, kot je DVD in ima večkanalni zvočni filmski zapis. Večkanalni zapisi so producirani s tremi zvočniki, ki so nameščeni s prednje strani, in z “ambientnima” zvočnikoma, ki sta nameščena s strani, vsak na svoji strani (slika 5.23). Danes je vodilna tehnologija “ambientnega zvoka” Dolby Digital. Je metoda zgoščevanja kodiranega digitalnega zvoka. Zvočni filmski zapisi so visoko kvalitetni, večkanalni in enostavno prenosljivi preko digitalnih zgoščenk (DVD), digitalne televizije (DTV), primerni za predvajanjeu na daljavo, digitalni satelitski in kabelski prenos [#19].

59 angl. Home Theater

Page 74: UNIVERZA V MARIBORU FAKULTETA ZA ...zvoka se odbije od sten sobe in potuje po daljših poteh, kot direkten zvok in tako doseže ušesa nekoliko kasneje (pot B). Odbiti zvoki so tudi

66

Slika 5.24: Hišni kino.

Dolby Surround je nastal pred leti, ob nastanku filma Vojna Zvezd. Je matrični proces

kodiranja, ki nam omogoča, da lahko katerikoli stereo medij (dva kanalna), analogni ali digitalni, nosi štiri kanalno zvočno informacijo. Kodirani posnetki so polno kompatibilni z mono in s stereo predvajanjem in televizijskem oddajanjem, medtem ko lahko pri predvajanju s sistemi, ki imajo vgrajen Dolby Surround Pro Logic dekodirnik, uživamo štiri kanalni prostorski zvok. Dva kanala, ki sta kodirana z Dolby Surround, imenujemo levi totalni in desni totalni). Tako jih ločimo od običajnih stereo levih in desnih kanalov (slika 5.24) [#20].

Slika 5.25: Dolby Surround format.

Dolby Digital je osnovan na tehnologiji zvočnega kodiranja AC-3 in je dojemljivo

kodiranje za potrošniške aplikacije, ki omogočajo shranjevanje in prenašanje od enega do šestih kanalov (spredaj levo, spredaj desno, center, zadaj levo, zadaj desno in nizkotonski izhod – od tod tudi oznaka 5.1) pri nizki podatkovni hitrosti (slika 5.25). Uporablja se pri DVD-jih in laserskih diskih, kot tudi pri digitalnem televizijskem, kabelskem in satelitskem prenosu. Prav tako je shema Dolby Digital EX razvita za hišni kino sistem. Ker je eden od kanalov namenjen le nizkotonskim posebnim učinkom in torej ni enakovreden preostalim petim, ga označujemo tudi kot 5.1. Pet kanalov (trije spredaj in dva ob strani) so za razliko od analognih različic povsem samostojni in imajo popoln frekvenčni razpon. Vendar pa so se morali tudi tu načrtovalci skleniti kompromis. Količina digitalnih podatkov s petih ali celo šestih kanalovi je bila za tedanjo elektroniko preobsežna, zato je bilo treba zvok zgostiti. Shema Dolby Digital pogojuje zgoščevanje podatkov na dvanajstino izvorne velikosti originala, česar, podobno kakor pri MP3, brez izgub ni mogoče doseči. Kakovost zvoka je zaradi tega nekoliko slabša kakor pri običajni zgoščenki CD–DA, vendar pa je razlika komaj, če sploh, zaznavna. [#20,#21].

Page 75: UNIVERZA V MARIBORU FAKULTETA ZA ...zvoka se odbije od sten sobe in potuje po daljših poteh, kot direkten zvok in tako doseže ušesa nekoliko kasneje (pot B). Odbiti zvoki so tudi

67

Slika 5.26: Shema zapisa Dolby Digital 5.1.

DTS (Digital Theatre System) Podobno kakor Dolby Digital podpira tudi DTS največ

pet glavnih kanalov in enega nizkotonskega, torej 5.1. Podobno kakor Dolby Digital je tudi DTS pravzaprav le postopek za zgoščevanje zvoka. Za razliko od Dolby Digital uporablja DTS manjšo stopnjo zgoščevanja, zaradi česar naj bi bil boljši. Manjša stopnja zgoščevanja namreč pogojuje manjše izgube in je zvok torej kakovostnejši. A le teoretično. Vse je namreč odvisno od učinkovitosti in kakovosti posameznega postopka. Razlika je v vsakem primeru majhna in je verjetno, tudi če obstaja, ne bomo slišali. Podobno kakor se je Dolby Digital razširil na šesti kanal, so to storili tudi pri DTS s shemo DTS-ES (Extended Surround). V različici DTS-ES je šesti kanal matrično analogno kodiran v levi in desni “ambientni” kanal, enako kot pri Dolby Digital EX. DTS-ES Discrete 6.1 je pravi šestkanalni zapis, s šestimi ločenimi glavnimi kanali, kar pomeni, da je tu razlika v kakovosti v primerjavi z Dolby Digital EX očitnejša. Vendar je dekodirnike za naveden sistem redko zaslediti [#20].

Dolby Surround Pro Logic je tehnologija, ki temelji na dekodiranju programskega materijala, kodiranega po shemi Dolby Surround. Vgrajen je skoraj v vsak hišni kino sistem. Podobno kot profesionalni dekodirniki v kino dvoranah, Dolby Surround Pro Logic rekonstruira originalne štiri kanale (levi, center, desni in “ambientni”), ki so kodirani v stereo filmskem zvočnem zapisu (slika 5.26).

Dolby Surround Pro Logic II. Najnovejši surround format, ki deluje na podoben, matrični princip kot klasični Pro Logic je Dolby Surround Pro Logic II. Bistvena razlika je v tem, da ponuja popoln 5.1 kanalen “ambienti” zvok iz običajnega stereo zapisa, kar ne samo da zagotavlja predvajanje starejših filmov, ki niso bili posneti v enem od “ambientnih” formatov, ampak tudi doživetje popolnega “ambientnega” zvoka s televizorja (večina programov se oddaja v stereo tehniki). Npr. pri spremljanju športnih prenosov ali koncertov, pa tudi za poslušanje glasbe v avtomobilu. Po karakteristikah zvoka je bližje shemi Dolby Digital, kot običajni shemi Dolby ProLogic. Večina sprejemnikov nove generacije že vsebuje ProLogic II dekodirnike [#19]. Pro Logic II je zmožen dekodirati na tisoče obstoječih filmov s shemo zvoka Dolby Sorround in TV oddaj. Izboljšava v dekodirni tehnologiji pomeni, da diskretnost ter razporejenost zvoka ostane bolje ohranjena v procesu dekodiranja, kot je bilo to mogoče z do sedaj univerzalno Pro Logic tehnologijo. Tehnologija Pro Logic II je prvi temelj novega pristopa v matričnem dekodiranju, po osnovnI zasnovi, ki je še vedno jedro vsakega aktivnega matrično–ambientnega dekodirnika. Slika 5.28 prikazuje blokovni diagram Dolby Surround Pro Logic II dekodirnika [#29].

Page 76: UNIVERZA V MARIBORU FAKULTETA ZA ...zvoka se odbije od sten sobe in potuje po daljših poteh, kot direkten zvok in tako doseže ušesa nekoliko kasneje (pot B). Odbiti zvoki so tudi

68

Slika 5.27: Hišni kino sistem s štiri kanalnim Dolby Surround Pro Logic predvajalnikom.

Slika 5.28: Blok diagram Dolby Surround Pro Logic II dekodirnika.

THX Surround EX in Dolby Digital EX. Pet glavnih kanalov in šesti za nizkotonske

učinke se verjetno marsikomu zdi več kot dovolj. Ko so pred nekaj leti snemali Grozečo prikazen – četrti del Vojne zvezd, so se odločili za še dodaten zvočni kanal, postavljen za gledalci. Da bi ohranili združljivost s shemo Dolby Digital, so morali poseči po matričnemu kodiranju. V četrti in peti kanal (torej levi in desni “ambientni”) je pri shemi THX Surround EX analogno matrično zakodiran še šesti kanal. dekodirnik THX Surround EX (ali v rabi doma namenjeni različici Dolby Digital EX) je torej sestavljen iz dveh delov – običajne sheme Dolby Digital, ki dekodira pet glavnih kanalov, in matričnega dekodirnika, ki iz dveh prostorskih kanalov izlušči še šestega. Glavna prostorska kanala se v tem primeru imenujeta levi in desni stranski prostorski kanal, šesti pa je t.i. kanal prostorskega ozadja. Dekodirnik Dolby Digital EX je torej namenjen predvsem predvajanju filmov s prostorskim zvokom Surround EX. Ti so, ker je zapis pravzaprav še vedno čisto običajen Dolby Digital, združljivi tudi z vsemi starejšimi dekodirniki. Uporaben pa je novi dekodirnik tudi pri nekaterih filmih, ki so posneti z običajno petkanalno shemo Dolby Digital. Zaradi analogne, ali pravilneje rečeno, fazne narave kodiranja šestega kanala se namreč včasih zgodi, da je določena prostorska informacija v dveh prostorskih kanalih shranjena tudi čisto nehote. Podobno, kakor je včasih v običajnem

Page 77: UNIVERZA V MARIBORU FAKULTETA ZA ...zvoka se odbije od sten sobe in potuje po daljših poteh, kot direkten zvok in tako doseže ušesa nekoliko kasneje (pot B). Odbiti zvoki so tudi

69

stereo posnetku tudi prostorski kanal, ki ga lahko “pričaramo” z dekodirnikom Pro-Logic. Pa tudi v primeru, da dodatne informacije v dveh prostorskih kanalih ni, je včasih učinek boljši, če prostorska kanala namesto s samo dvema zvočnikoma poslušamo s štirimi, saj se bo tako prostorska slika razširila še za gledalci. Shema 5.1, 6.1 ali 7.1 Surround EX ali Dolby Digital EX je zasnovana na prostorskem zvoku, ki bi ga morali, ker ima še vedno le 5 glavnih kanalov in enega nizkotonskega, označevati kot 5.1. Zaradi dodatnega analogno zakodiranega kanala bi mu lahko rekli tudi 6.1. Vendar ga izdelovalci prostorskih ojačevalnikov pogosto označujejo kot 7.1, ker sta za tretji prostorski kanal na voljo dva ojačevalnika (in dva zvočnika).

THX shema prostorskega zvoka je praviloma prirejena predvajanju v kinodvoranah. Te so velike in imajo svoje zvočne zakonitosti, zaradi česar takšen zvočni posnetek ni najbolj primeren za predvajanje v domačem kinu. Vendar pa običajno filmski založniki, ko film izdajo na videokaseti, zvoka ne priredijo za domače predvajanje, ampak na videokaseto le posnamejo originalen filmski posnetek v zapisu Dolby Stereo. Zaradi tega so pri LucasFilmu naredili prirejen dekodirnik THX Pro-Logic. Z njim zvok “popravijo” in ga prilagodijo poslušanju v hišnem kinu. Poleg tega so od izdelovalcev naprav za predvajanje zvoka zahtevali, da morajo izdelki, v katere bi želeli vgraditi ta dekodirnik, ustrezati strogim kakovostnim merilom. Značka THX je zaradi tega postala tudi kakovostna oznaka za prostorske ojačevalnike, predvajalnike DVD in zvočnike [#20].

Page 78: UNIVERZA V MARIBORU FAKULTETA ZA ...zvoka se odbije od sten sobe in potuje po daljših poteh, kot direkten zvok in tako doseže ušesa nekoliko kasneje (pot B). Odbiti zvoki so tudi

70

6. GLASBA S prihodom zmogljivih in cenenih digitalnih signalnih procesorjev na tržišče je veliko računalnikov usposobljenih za zajemanje, procesiranje in generiranje glasbe. Ker je glasba eden izmed bistvenih sestavnih delov večpredstavnih predstavitev, se je pri programerjih večpredstavnih aplikacij pojavila zahteva po glasbenem podatkovnem tipu, ki bi omogočal vključevanje in uporabljanje glasbenih zmogljivosti računalnika [2]. Glasba se je uveljavila v multimediji kot samostojen tip iz dveh pomembnih razlogov. Prvi se lahko opiše s sintagmo, ki jo pogosto srečujemo v svetu glasbenikov: ”Vsaka glasba je zvok, vsak zvok pa ni glasba”. Gre torej za neko vrsto podmnožice v svetu zvokov, katere meje niso vedno povsem natančno definirane, saj so precej spremenljive in odvisne od številnih dejavnikov – kulture, časa, osebnega doživetja, načina razmišljanja … V glasbi lahko natančno definiramo le to, da gre povsem za subjektivno doživetje. Drugi, še bolj pomemben dejavnik, ki loči digitalni avdio od t.i. glasbe je, da se tukaj pojem glasbe nanaša samo na tisto glasbo, ki je bila proizvedena (sintetizirana) s pomočjo računalnika. Podobno kot pri grafiki, kjer ločimo digitalizirane in računalniške slike, tudi računalniški zvok delimo na tisti, ki je nastal z vzorčenjem nekega izvora in tisti, ki je nastal na samem računalniku. V prvem primeru govorimo o predstavitvi zvoka s pomočjo otipkov, v drugem pa o strukturirani predstavitvi glasbe. V slednji je zvok v računalniku predstavljen v obliki ukazov, sporočil, opisov ipd. Z razvojem elektronike se je v začetku 70-tih let pojavila nova oblika glasbenih “orodij” – glasbeni čipi, ki so bili zmožni snemanja, obdelave in predvajanja glasbe. Kmalu so se pojavili prvi instrumenti, kot so električne klavijature, sintetizatorji, kitare ipd. Z vse večjo uveljavitvijo takšnega načina muziciranja se je začela pojavljati potreba po standardizaciji predstavitve takšne glasbe. Do danes sta se uveljavila dva osnovna koncepta: operativna60 in simbolna61 predstavitev. Prva sloni na natančnih fizikalnih in časovnih opisih zvokovnih dogodkov, ki naj bi se izvajali, druga pa na visokonivojskem simbolnem zapisu celotnega glasbenega dela. Prvo obliko definira danes najbolj uveljavljen standard MIDI (Musical Instrument Digital Interface), drugo pa standard SMDL (Standard Music Description Language) [1]. 6.1 Standard MIDI

Zapis MIDI oz. široko uveljavljen protokol (fizične, električne, funkcionalne in proceduralne specifikacije) za povezavo in komunikacijo med računalniki in glasbeno opremo, je bil razvit v začetku osemdesetih let s strani proizvajalcev glasbenih instrumentov in opreme (združenih v organizacijo MMA – Midi Manufactores

60 angl. operational 61 angl. symbolic

Page 79: UNIVERZA V MARIBORU FAKULTETA ZA ...zvoka se odbije od sten sobe in potuje po daljših poteh, kot direkten zvok in tako doseže ušesa nekoliko kasneje (pot B). Odbiti zvoki so tudi

71

Association). Zaradi uspešnosti protokola je našel mesto v mnogih proizvodih, med katere sodijo predvsem glasbeni instrumenti, kot so elektronske klaviature, orgle, bobni, sekvenčniki (uporabljajo se za interpretacijo MIDI sporočil pri predvajanju in snemanju) in naprave, ki se uporabljajo za sinhronizacijo glasbe z videom in filmom.

Vsaka MIDI naprava ima ena ali več vrat, preko katerih je lahko povezana s standardno povezavo (kablom) na drugo MIDI napravo. Obstajajo tri različice MIDI vrat:

- izhodna vrata (MIDI OUT) omogočajo MIDI napravam, da pošiljajo drugim MIDI napravam sporočila,

- vhodna vrata (MIDI IN), namenjena sprejemu MIDI sporočil drugih naprav in - posredovalna vrata (MIDI THRU), ki posredujejo sprejeta sporočila (s sporočili

lahko ločeno naslavljamo več naprav), kar omogoča verižno povezavo MIDI naprav.

Preprosta konfiguracija MIDI naprave je npr. klaviatura oz. sintetizator, uporabljen za generiranje in procesiranje MIDI sporočil (slika 6.1). Sporočila so posneta s sekvenčnikom (posebna namenska MIDI naprava ali računalnik z MIDI vrati in ustrezno programsko opremo). MIDI sekvenčnik predvaja posneta MIDI sporočila, ki se nato obdelajo s klaviaturo oz. sintetizatorjem in se posredujejo naprej drugi MIDI napravi v obdelavo. Takšen koncept omogoča povezovanje več naprav MIDI v bolj kompleksno verigo (slika 6.2).

Slika 6.1: Primer konfiguracije MIDI.

Slika 6.2: Primer razširjenega MIDI sistema.

Page 80: UNIVERZA V MARIBORU FAKULTETA ZA ...zvoka se odbije od sten sobe in potuje po daljših poteh, kot direkten zvok in tako doseže ušesa nekoliko kasneje (pot B). Odbiti zvoki so tudi

72

Potek procesiranja MIDI sporočil ali odzivanja na sporočila sprejeta z MIDI vrat, oz. na interno generirana sporočila, se razlikuje od naprave do naprave. V zgornjem primeru se sekvenčnik odziva z beleženjem sporočil. Druga naprava, npr. klaviatura / sintetizator, se odziva s sintetiziranjem zvoka, čeprav ta ni natančno določen z MIDI sporočilom. Sámo sporočilo določa sintetizatorju izbiro zvoka iz nabora zvokov (vpoglednih tabel ali palet). Vpogledno MIDI tabelo (v nadaljevanju tabelo), si lahko predstavljamo kot nabor not, ki jih lahko generira neki instrument. Npr. tabela, ki določa notni nabor za boben, obsega nabor bobnu podobnih zvokov, medtem ko bo vseboval splošni sintetizator množico tabel za različne standardne instrumente, npr. violino, klarinet, deklariramo pa lahko tudi nove tabele. Posledica tega je, da različni sintetizatorji generirajo različne zvoke s procesiranjem enakih podatkov oz. sporočil (odvisno od nabora tabel). V nadaljevanju bomo pogledali tabelo MIDI sporočil. Ker se MIDI razširjeno uporablja, njegova struktura pa (izjema so MIDI uporabniki) ni tako znana, mu bomo posvetili malo več pozornosti. Preden začnemo opis MIDI sporočil, moramo predstaviti nekatere osnovne pojme:

- Kanal: MIDI naprava ima 16 sporočilnih kanalov. Večina sporočil vsebuje kodo z zaporedno številko kanala. MIDI naprave se lahko odzivajo na enega ali vse kanale.

- Ključno število: posamezne note identificiramo po njihovem ključnem številu. Vseh je 128 (standardna klaviatura obsega 88 tipk).

- Krmilnik: Karakteristike MIDI naprave definiramo z nastavljanjem krmilnikov. Vsem 128 lahko spreminjamo parametre. Npr. krmilnik 4 je t.i. nožni krmilnik. Če mu spremenimo vrednost, s tem spremenimo način tvorjenja zvoka. Vse naprave ne podpirajo vseh krmilnikov. V bistvu mnogo krmilnikov MIDI protokol pravzaprav sploh ne definira. S tem je odprta možnost dodajanja specifičnih lastnosti naprav s krmilniki, kot dopolnitev MIDI protokola.

- Nabor zvokov/programov (program/patch, angl.): predstavlja avdio paleto oz. zvočne učinke in zvoke instrumentov, ki jih sintetizator lahko posnema. Zavzemajo vrednosti od 1 do 128. Porazdeljeni so v skupine, sestavljene iz 8 sorodnih instrumentov. Tako je npr. prva skupina ponavadi iz družine klavirjev (akustični klavir ima št.1, električni klavir št.3, …), druga iz tolkal (številke od 9 – 16), tretja iz družine orgel (št. Od 17 - 24), itn. Sposobnost sintetizatorja, da istočasno izvaja več različnih instrumentov (programov), se imenuje večzvočnost62) [#22].

- Mnogoglasje ali polifonija: Je zmožnost sintetizatorja, da generira več not hkrati bodisi z uporabo ene ali več palet. Eno glasni sintetizator razpolaga z eno samo paleto (enim zvokom), medtem ko mnogoglasni podpira več zvokov [2]. Sintetizator naj bi omogočil izvajanje polifonskih skladb (kot je to mogoče pri izvesti npr. pri klavirju), sekvenčnik pa njihovo predvajanje.

- Pesnitev: imenujemo posneto ali predprogramirano zaporedje MIDI sporočil v pomnilniku poljubne MIDI naprave. Med predvajanjem poseben kazalec pozicije predvajanja označuje trenutno mesto izvajanja pesnitve.

- Časovnik: Za glasbo je zelo pomembna časovna komponenta, ki določa, kako hitro se bodo igrale note v neki kompoziciji, zato MIDI sekvenčnik označi vsa sporočila z ustreznim časovnimi oznakami. Časovnik generira oznake z intervalom, merjenim v delcih na četrtinko note PPQ (Parts Per Quoter note). Tipične vrednosti so ,24, 96, 480 PPQ. Če želimo pretvoriti časovno oznako v realen čas, potrebujemo tempo (časovno bazo), ki ga merimo v udarcih na minuto (BPM – Bits

62 angl. multi-timbral

Page 81: UNIVERZA V MARIBORU FAKULTETA ZA ...zvoka se odbije od sten sobe in potuje po daljših poteh, kot direkten zvok in tako doseže ušesa nekoliko kasneje (pot B). Odbiti zvoki so tudi

73

Per Minute). Npr. tempo 120 BPM predstavlja dva udarca na sekundo oz. dve četrtinki (2/4) note. Tako bi za časovno bazo 24 BPM lahko izračunali trajanje v stvarnem času : 1/24*(2/4) ≅ 20 ms.

- MIDI sinhronizacija: MIDI naprave, ki vsebujejo uro, lahko nastavimo na notranjo ali zunanjo sinhronizacijo (interno/eksterno). Če se naprava sinhronizira interno, potem je MIDI naprava v nadrejeni vlogi (gospodar – master, angl.) in na svojih izhodih generira posebno sporočilo ure učasovanja s 24 PPQ. Če se naprava sinhronizira od zunaj, potem ima podrejeno vlogo (suženj – slave, angl.). Za sinhronizacijo uporablja zunanja sporočila ure učasovanja ene od nadrejenih naprav.

- MIDI časovna koda (MIDI Time Codec): MIDI časovno kodo (MTC) uporabljamo za sinhronizacijo MIDI datotek s filmom ali videom. Ko se film ali video predvaja, prebere MTC časovno kodo videa (filma) SMPTE, nakar generira štiri MTC sporočila na okvir (filma ali videa). Ta sporočila se uporabijo za proženje zvočnih učinkov.

6.1.1 MIDI sporočila

Pogosta pomota v zvezi z MIDI je, da ga povprečni uporabnik doživlja kot objekt, v resnici pa gre za neotipljiv pojem, zgolj metodo (protokol, proceduro), s katero ustvarjamo glasbo. Kot že povedano, ta metoda sloni na sporočilih, ki si jih naprave med seboj izmenjujejo. Končni rezultat – zvok, pa ni definiran v sporočilih, temveč je odvisen od naprave, na kateri se izvaja. Vsaka naprava ima svojo zvočno paleto (zaradi različnih glasbenih čipov, ki so v njo vgrajeni), s katero proizvaja nek zvok, ki se včash razlikuje od zvoka na kakšni drugi napravi [#22]. MIDI protokol temelji na sporočilih (tabela 6.1). Sporočilo se pogosto uporablja za prenos večjega števila podatkov, kot npr. prenos celotne vsebine nabora palet pomnilnika ene MIDI naprave. Osnovna enota sporočila je zlog (8-bitov). Vsako sporočilo je sestavljeno iz ukaznega zloga (statusni zlog) in enega ali več podatkovnih zlogov. Podatke in ukaze ločimo po najbolj uteženem bitu v zlogu (1 = ukaz, 0 = podatki). MIDI sporočila delimo v različne kategorije:

- Glasovna sporočila kanala (8c-Ec) določajo, katere note se bodo predvajale, hitrost udarca in sprostitve ter pritiska tipke (na klaviaturi) pri tvorjenju note.

- Sporočila o načinu delovanja kanala (Bc s krmilniki 121-127) se uporabljajo za izbiro načina delovanja sintetizatorja. Npr. ali naj se sintetizator odziva na vse kanale ali pa samo na enega in ali naj se vsi kanali generirajo glasovno ločeno ali naj se vsi glasovi uporabijo samo za en kanal.

- Sistemska sporočila (F0 - FF), s katerimi izvajamo različne sistemske funkcije in se nanašajo na posamezen kanal. Z njimi naslavljamo uro časovnika in MTC, sistemski reset ter aktiviramo in deaktiviramo naprave. Npr. za predvajanje v sistemu z več MIDI napravami nadrejena naprava najprej pošlje sporočilo (zlog) za začetek – start. Podrejena naprava, ki sprejme od nadrejene poslano sporočilo bo začela predvajati pesnitev z mesta lokalnega kazalca pozicije predvajanja.

Page 82: UNIVERZA V MARIBORU FAKULTETA ZA ...zvoka se odbije od sten sobe in potuje po daljših poteh, kot direkten zvok in tako doseže ušesa nekoliko kasneje (pot B). Odbiti zvoki so tudi

74

Tabela 6.1: Nabor MIDI sporočil.

Ime ukaza Ukazna koda63

Število podatkovnih bitov Podatki

Note Off 8c 2 ključno število, vrednost stopnje hitrosti Note On 9c 2 ključno število, vrednost stopnje hitrosti Key Pressure Ac 2 ključno število, vrednost stopnje pritiska Control Change Bc 2 številka,krmilnika, krmilna vrednost Program Change Cc 1 številka palete Channel Pressure Dc 1 vrednost pritiska Pitch Bend Change Ec 2 vrednost krivuljenja tonskega poteka System Exclusive F0 n64 poljubno MIDI Time Code F1 1 številka okvira Song Position Pointer F2 2 vrednost kazalca pozicije v pesnitvi Song Select F3 1 številka pesnitve Nedefinirano F4 Nedefinirano F5 Tune Request F6 0 End of Exclusive F7 0 Timing Clock F8 0 Nedefinirano F9 Start FA 0 Continue FB 0 Stop FC 0 Nedefiniano FD Active Sensing FE 0 System Reset FF 0 6.1.2 Prednosti in slabosti MIDI Modularnost in prožnost MIDI protokola sta odliki, ki sta prispevali k njegovi razširjenosti, vendar pa obstajajo tudi omejitve MIDI protokola. Najprej naj omenimo omejeno podatkovno hitrost komunikacije. MIDI omogoča podatkovno hitrost 31.250 b/s, pri tej hitrosti lahko tvorimo največ 500 not v sekundi. Če pa uporabljamo kompleksnejše kompozicije skladb, navedena podatkovna hitrost ne zadošča. Naslednje so omejitve števila kanalov in omejitve pri naslavljanju naprav. Naslednji potencialni problem predstavlja odvisnost podatkov od MIDI naprave, predvsem v smislu arbitraž številčenja palet. Brez neke konvencije glede števk posameznih palet generirajo različni sintetizatorji različne rezultate za isti nabor podatkov. Ne nazadnje moramo omeniti tudi probleme pri konfiguraciji pri obsežnih MIDI omrežij [2].

Glede tega se razvija nov standard s strani IEEE – SA (The Institute of Electrical and Electronics Engineers Standards Association), da bi povečali in razširili uporabo MIDI protokola. Novi MIDI standard je IEEE P163965. Znatno naj bi povečal hitrost prenosa in shemo naslavljanja in ob tem obdržal standardna MIDI sporočila. DMIDI bo uporabljal osnovno infrastrukturo Ethernet omrežij in bo imel hitrost prenosa do 10 Gb/s. Povečalo se bo tudi število naslovljivih naprav iz obstoječih 255 na 16 milijonov naprav, ki bodo prav

63 c je oznaka uporabe spodnjih štirih bitov (polovičke zloga) za število kanala. Vse oznake so v šestnajstiškem zapisu. 64 Vsi nadaljni zlogi do sporočila “End of Exclusiv” se obravnavajo kot podatkovni. 65 Standard for Transmission of MIDI Data within LAN (Local Area Networks): Distributed MIDI – DMIDI

Page 83: UNIVERZA V MARIBORU FAKULTETA ZA ...zvoka se odbije od sten sobe in potuje po daljših poteh, kot direkten zvok in tako doseže ušesa nekoliko kasneje (pot B). Odbiti zvoki so tudi

75

tako obdržale obstoječo 16 kanalno MIDI strukturo. Standard DMIDI bo optimiziral MIDI tudi za naprave z nizko podatkovno hitrostjo. Specificiral bo komunikacijske protokole za pošiljanje MIDI podatkov v LAN omrežja in bo vseboval protokole za nizke hitrosti podatkov in visoko nivojske sheme naslavljanja za medsebojno povezovanje MIDI naprav preko LAN omrežij [#23].

Na trgu najdemo številna programska orodja za delo z MIDI – od enostavnih, ki omogočajo preproste operacije predvajanja MIDI (številni jukebox-i) do visokoprofesionalnih programov za komponiranje, popravljanje in urejanje kompozicij (Cubase, Notator, Cakewalk Audio Pro, …), in še posebej zanimivi urejevalniki MIDI programov, ki omogočajo ustvarjanje novih oblik zvoka in zvočnih efektov. Poleg tega je računalniško okolje prijaznejše za tovrstne operacije, kot navadna električna klaviatura, tako da se večji del posla opravi na računalniku in posname v pomnilnik sintetizatorja, kar poveča njegove zmožnosti (izvajalec si posname spremljavo za neko kompozicijo, ki jo potem lahko samostojno izvaja, brez pomoči drugih glasbenikov).

MIDI se vedno bolj uporablja tudi za kontrolo osvetlitve odra, izvajanje posebnih efektov ipd. V ta namen se je razširila MIDI specifikacija, znana kot splošna MIDI specifikacija, imenovana General MIDI Standard (GMS) in Format Standard MIDI Files (format SMF), ki omogoča razširitev zmožnosti MIDI protokolov [#22]. 6.2 Standard SMDL Standardni opisni jezik za glasbo izvira iz standardov za procesiranje glasbenih informacij MIPS (Music Information Processing Standards). MIPS deluje pod okriljem organizacije ANSI (American National Standards Institute), njegov cilja pa je definirati standard, ki bo razen kodiranja glasbe vseboval tudi druge informacije, kot so naslov pesmi ali ime avtorja kompozicije. SMDL se nanaša na več področij uporabe glasbeno orientiranega materiala, obsega predstavitev glasbe za elektronsko distribucijo in produkcijo s programsko opremo, predstavitev kompozicijskih spisov in primerov pesnitev za tiskovine (dokumente) ter prikaz glasbene anotacije in lastnosti, ki se uporabljajo za glasbene analize in glasbene podatkovne baze. SMDL definira standardno strukturo dokumenta, ki vsebuje glasbeno informacijo. Standard zajema način predstavitve glasbe za potrebe izvajanja na elektronskih komponentah in izdelave programskih produktov, način prikazovanja in izpisovanja te glasbe na notne dokumente ter način predstavitve posebnih glasbenih atributov za potrebe glasbene analize. Najvišji nivo strukture je glasbeno delo (music work), ki je sestavljeno iz glavne sekcije (core section), izvedbene sekcije (gestural secton), predstavitvene sekcije (visual section) in analitične sekcije (analytical section). Glavna sekcija se sestoji iz glasbenih dogodkov, kot so zaporedje not, ki jih je treba zaigrati. Izvedbena ali gestikularna sekcija pove, na kakšen način je treba izvajati glavno sekcijo, kar omogoča “naravno dihanje” glasbe, tj. je ne omejuje na strogo definiran tempo, dinamiko ipd. Predstavitvena sekcija ima nalogo predstaviti uporabniku glasbeni zapis, ki se nahaja v računalniku v obliki notnega zapisa. Le-ta vsebuje tudi dodatne module, ki omogočajo izpis posebnih informacij, kot je npr. besedilo, ki ga glasba spremlja. Analitična sekcija je namenjena za izdelavo različnih analiz glasbenega dela. SMDL je vgrajen kot glasbeni standard v višji standard – HyTime, ki zajema celotno področje multimedije.

Page 84: UNIVERZA V MARIBORU FAKULTETA ZA ...zvoka se odbije od sten sobe in potuje po daljših poteh, kot direkten zvok in tako doseže ušesa nekoliko kasneje (pot B). Odbiti zvoki so tudi

76

Operacije nad tovrstno glasbo so posebnega pomena, saj morajo omogočiti željeno izvedbo glasbenega dela z vsemi njegovimi posebnostmi – spremembe tempa in dinamike, izvajanje glasbeih okraskov, harmonizacijo, aritmičnost ipd. To je tudi glavni mejnik med avdiom in glasbo. Že posnet avdio se ne da več korigirati v prej naštetih oblikah. Zato je digitalni avdio primeren samo za predstavitev končnega rezultata neke glasbene ustvarjalnosti. Poleg tega pa sintetični način zapisovanja glasbe ni občutljiv na šum, ki nastane pri digitalnem avdiu zaradi kvantizacijske napake pri pretvorbi analognega avdia v digitalnega in zaradi nepopolnosti analognega vira. Nazadnje je pomembna razlika tudi ta, da strukturni način zapisa glasbe, kot ga najdemo pri standardnih MIDI in SMDL, zaseda bistveno manj pomnilniškega prostora tj. tovrstne datoteke so manjše, kot tiste, ki vsebujejo visokokomprimiran digitalni zapis (otipke). Proizvajanje in izvajanje glasbe. Sintetična glasba omogoča skladatelju, da celotno glasbeno delo, naj bo še tako zahtevno, napiše dejansko na enem samem instrumentu – električni klavijaturi (sintetizatorju). S pomočjo le-te posname v računalnik dele posameznih instrumentov v skladbi. Po potrebi jih popravi in preuredi ter na koncu izvaja (samo enega, več ali vse instrumente) in izvaja naknadne korekcije. Strukturiran način glasbe omogoča poslušalcu, da v času same izvedbe spreminja določene parametre, kot so tempo, dinamika, glasnost posameznih instrumentov, ki izvajajo skladbo ipd. Časovna komponenta je, kot že večkrat omenjeno, pomembna pri komponiranju in izvajanju sintetične glasbe. Določena aritmičnost in spremembe hitrosti izvajana (tempo) se pogosto uporabljajo v procesu komponiranja. Računalnik naj bi omogočil skadatelju, da npr. s pomočjo matematičnih funkcij določi način spreminjanja tempa. V časovno problematiko sodi tudi problem sinhronizacije med posameznimi kanali (instrumenti) ter sposobnost izvajanja skladbe od dololčenega trenutka naprej. Komponiranje in urejanje (editiranje). Danes najdemo na trgu številne programe, ki omogočajo komponiranje in urejanje glasbe na računalniku. Tukaj razumemo operacije, kot so pisanje in spreminjanje not, kopiranje in prestavljanje posameznih delov kompozicije, dodajanje, brisanje in usklajevanje posameznih instrumentov, izpis skladbe v klasičnem notnem zapisu …[2].

Page 85: UNIVERZA V MARIBORU FAKULTETA ZA ...zvoka se odbije od sten sobe in potuje po daljših poteh, kot direkten zvok in tako doseže ušesa nekoliko kasneje (pot B). Odbiti zvoki so tudi

77

7. OBDELAVA DIGITALNEGA ZVOKA Z UPORABO PROGRAMSKEGA ORODJA Prvi del praktičnega dela diplomske naloge predstavlja obdelavo digitalnega zvoka s pomočjo programskega orodja – Cool Edit. Cool Edit je digitalni avdio urejevalnik, zelo podoben ostalim digitalnim avdio urejevalnikom in je že kar nekaj časa v uporabi ter znan mnogim uporabnikom. Z njim lahko snemamo in predvajamo akustične signale, jih mešamo in pretvorimo iz enega formata v drugega v veliko število avdio formatov. Omogoča tudi možnost pretvorbe večjega števila vzorcev iz enega formata zapisa v drugega, npr. iz formata . wav v format .pcm. Urejati je mogoče več vzorcev istočasno, lahko kreiramo zvoke z generatorjem tonov, generatorjem šuma in generatorjem DTMF signalov. Avdio vzorec lahko popravimo s FFT filtrom, hitrim filtrom, ojačevalnikom, kompresorjem, ovojnico, raztegom, kanalnim mešalnikom in odstranjevalnikom šuma. Dodate lahko učinke, kot so odboj, zamik, odmev, sobni 3D odmev, robljenje in popačenje. Lahko tudi spreminjate tempo ter tonski potek66. Orodje ponuja tudi podatkovne analize. Spektralni pogled kaže večbarven prikaz signala z vpogledom v frekvenčno strukturo signala, generiramo pa lahko tudi frekvenčno analizo, da ugotovimo, katere frekvence prevladujejo v določenem področju signala. Statistika podaja informacijo o višini amplitude, minimalne in maksimalne nivoje moči RMS, ...

Drugi del praktičnega dela diplomske naloge je interaktivna multimedijska predstavitev diplomskega dela (tekst, slika, zvok). Vsebinsko zajema teoretični del diplomske naloge, kot osnovo za nadaljnje razumevanje predstavitve praktičnega dela, ki predstavlja vpliv različnih nastavitev parametrov pri produkciji in reprodukciji zvoka. V sklopu obdelave podatkov smo zajeli snemanje in predvajanje zvočnega zapisa, kot tudi uporabo različnih transformacij zvočnega zapisa samega. Opisali smo, kateri parametri so potrebni pri snemanju in kateri pri predvajanju, kako spremembe nastavitev vplivajo na samo snemanje in predvajanje, kako katere transformacije vplivajo na sam zvočni zapis ter reprodukcio zvoka itd. 7.1 Snemanje in predvajanje Kadar želimo posneti digitalni zvok s programskim orodjem (digitalni urejevalnik), moramo najprej vnesti frekvenco vzorčenja, število kvantizacijskih bitov (ločljivost) in število kanalov. Za govor in glasbo je uveljavljena standardna frekvenca vzorčenja fs=44,1 kHz, ločljivost = 16 otipkov, število kanalov je dva (stereo) za glasbo eden (mono) za govor. Frekvenčni razpon človeškega sluha je nekje od 15 — 20000 Hz. Po Nyquistu mora biti frekvenca vzorčenja vsaj dvakrat večja od največje frekvence, vsebovane v signalu, 66 angl. pitch

Page 86: UNIVERZA V MARIBORU FAKULTETA ZA ...zvoka se odbije od sten sobe in potuje po daljših poteh, kot direkten zvok in tako doseže ušesa nekoliko kasneje (pot B). Odbiti zvoki so tudi

78

zato frekvenca vzorčenja 44,1 kHz zadostI navedenemu pogoju za glasbo (proizvajalci so se odločili za to frekvenco kot standardno - zgoščenka CD–DA). Če uporabimo nižjo frekvenco vzorčenja, se pojavi tudi slišna degradacija kakovosti signala (primeri snemanja govora, glasbe in klasične glasbe). Pri ločljivosti 16 otipkov na vzorec imamo 65536 kvantizacijskih nivojev amplitude, kar je kar veliko za človeški slušni sistem, ki pri navedeni ločljivosti ne zazna več kvantizacijske napake. Pri ločljivosti 8 bitov imamo samo 256 nivojev, kar se pa je že slušno zaznavno (v ozadju slišimo konstanten šum). Slika 7.1 prikazuje izgled okna digitalnega urejevalnika za nastavitev snemalnih parametrov.

Slika 7.1: Okno digitalnega urejevalnika za nastavitev snemalnih parametrov.

V zvočnih primerih, ki smo jih uporabili, želimo prikazati, kako vplivajo različne nastavitve glavnih parametrov na končni produkt snemalnega procesa in slišne razlike, ki se pojavijo pri reprodukciji. Uporabili smo vzorce zvoka s treh področij:

- govor, ki smo ga zajeli z frekvenco vzorčenja 44.1 kHz, ločljivostjo 16 bitov in 1 kanalom (mono),

- odsek glasbe (44,1 / 16 / 2 - stereo) ter - odsek klasične glasbe (44.1 / 16 / 2).

Te posnetke smo predvajali (vsi posnetki so iz enega originala) in jih posneli pri različnih nastavitvah glavnih parametrov. Pri predvajanju se nam pojavijo slišne razlike. Tako lahko slišimo, kako kakšen parameter vpliva na samo snemanje in predvajanje. Pri snemanju lahko s pridom uporabljamo merilnik jakosti signala (VU67), ki nam prikazuje najvišjo amplitudo v dB, kjer je 0 dB absolutni maksimum, preden se pojavi rezanje (čisto spodaj v oknu Cool Edit).

Problem se je pojavil pri predvajanju teh posnetkov s programskim orodjem Macromedia Director; tako eksternih kot internih podatkov (.wav format zapisa zvoka kot tudi .swa format zapisa). Director namreč verno predvaja (podpira) samo določene frekvence vzorčenja, ostale pa nekako spremeni (več v nadaljevanju). Zato to kar slišimo v predstavitvi, ni najvernejša reprodukcija zvoka. Da bi občutili pravilne slišne razlike, ki se

67 angl. Volume Unit

Page 87: UNIVERZA V MARIBORU FAKULTETA ZA ...zvoka se odbije od sten sobe in potuje po daljših poteh, kot direkten zvok in tako doseže ušesa nekoliko kasneje (pot B). Odbiti zvoki so tudi

79

pojavijo pri spreminjanju parametrov, brez dodanih razlik zaradi vzorčenja, priporočamo, da primere predvajate z orodjem, ki verno reproducira zvok (npr. Winamp, Windows Media Player, ...) in s stereo slušalkami, da je razlika jasnejša in izrazitejša. Slika 7.2 prikazuje izgled avdio signala.

Slika 7.2: Izgled signala v programskem orodju Cool Edit.

7.2 Operacije nad digitalnim zvokom V nadaljevanju vam želimo predstaviti nekaj operacij, s katerimi lahko vplivamo na sam zvočni signal in so značilne za več urejevalnikov zvoka, podobno kot Cool Edit. Izbrali smo operacije, ki so pomembne za spoznavanje osnovnih lastnosti obdelave digitalnega zvoka pri produkciji kot pri reprodukciji. Razlike bomo poskušal prikazati s pripadajočimi zvočnimi primeri v multimedijski predstavitvi. Uporabili bomo različne zvočne podlage (22 ali 44 kHz, 16 ali 8 bitov, mono ali stereo) za posamezne sklope operacij, v izogib monotonosti predstavitve. Za vsako operacijo bomo slikovno prikazali podobo izbranih signalov, opisali operacije in nastavitve parametrov (izbrane nastavitve parametrov), kateri parametri so za posamezne operacije potrebni, kako kaj vpliva na samo operacijo itn. Operacije smo razčlenili v pet skupin. V nadaljevanju bomo zapisali bolj splošno o lastnostih posameznega sklopa operacije, ker bi bilo preobsežno opisovati vsak ukaz posebej z vsemi uporabljenimi parametri. Opis vseh ukazov in njihovih lastnosti je opisan v multimedijski predstavitvi diplomskega dela, kjer so dodani akustični primeri in predstavljene razlike, ki nastopijo ob spremembi posameznih nastavitev parametrov.

V prvo skupino ukazov sem uvrstil ukaze s področja urejanja podatkov signala (Edit Menu). Slika 7.3 prikazuje izbirni meni za ukaze urejanja. Poleg že klasičnih ukazov urejanja (Copy, Paste, Cut, Undo, ...), ki jih nismo posebej obravnavali, so tu še novi ukazi s področja urejanja zvočnega signala. Izbrali smo tri ukaze, ki pa so se nam zdeli potrebni razlage (Mix Paste, Adjust Sample Rate in Convert Sample Type).

Druga skupina ukazov (View Menu, slika 7.4) nam nudi kontrolo nad prikazom zvočnega signala. Obravnavali smo le dva ukaza za različna pogleda na sam signal, ostalih pa nismo posebej obravnavali. Na razpolago imamo dve obliki pogleda: časovna oblika in spektralna (frekvenčna) oblika signala {ukaz /view/waveform ali /viev/spectral} (slika 7.5). Spektralni pogled nam omogoča vpogled v frekvenčne komponente signala, kar je priročno, kadar želimo analizirati avdio podatke, da vidimo, katere frekvence prevladujejo

Page 88: UNIVERZA V MARIBORU FAKULTETA ZA ...zvoka se odbije od sten sobe in potuje po daljših poteh, kot direkten zvok in tako doseže ušesa nekoliko kasneje (pot B). Odbiti zvoki so tudi

80

v signalu. Večja je gostota določene frekvence v signalu, svetlejša je barva signala. Barve se spreminjajo od

Slika 7.3: Meni Edit.

Slika 7.4: Meni View.

temno plave (nobene frekvenca ni navzoča v tem območju) do svetlo rumene (navzočih je veliko fekvenc v tem področju). Nižje frekvence so prikazane blizu spodnjega roba signala, visoke frekvence pa pod zgornjim robom. Skala na desni je linearna. Najvišje frekvence predstavljajo frekvence tik pod Nyquistovo frekvenco oz. frekvenco vzorčenja. Časovna oblika signala prikaže klasično obliko signala. Na desni lahko izbiramo, kaj nam predstavlja skala: odstotek, število vzorcev in normalizirane vrednosti.

Tretja skupina ukazov (Transform Menu) je zelo pomembna in se največkrat uporablja pri delu z zvočnimi signali, saj nam omogoča transformirati mnogo lastnosti signala samega. Slika 7.6 prikazuje meni Transform z vsemi podoperacijami, ki jih lahko dosežemo s posameznim ukazom. Pod ukazom /Transform/Amplitude/ imamo na voljo več operacij nad signalom, s katerimi lahko vplivamo na amplitudo signala. Vplivamo lahko na značilnosti zakasnitve, odmeva, prostorskega odmeva, odboja in robljenja68 signala. Z

68 angl., Flanger

Page 89: UNIVERZA V MARIBORU FAKULTETA ZA ...zvoka se odbije od sten sobe in potuje po daljših poteh, kot direkten zvok in tako doseže ušesa nekoliko kasneje (pot B). Odbiti zvoki so tudi

81

opcijo /Transform/Filters/ imamo na voljo dva postopka filtriranja: FFT (Fast Fourier Transformation) in Quick Filter.

Slika 7.5: Spektralni prikaz signala.

Uporabimo jih, za določitev obnašanja določenih frekvenc ali frekvenčnih področij. Z uporabo filtrov lahko določimo, katere frekvence bo filter prepuščal, kako jih bo filtriral, ... Z ukazom /Transform/Noise Reduction lahko odstranimo šum, ki se pojavi v ozadju in šum, ki se pojavi preko celega signala z minimalno razliko v kvaliteti. Količina odstranjenega šuma je odvisna od tipa šuma, ki se pojavlja in dovoljenih izgub v kvaliteti signala, ki se ohranja. Dosežemo lahko zmanjšanje šuma do 21 dB na 1 dB pojemka signala (originala). Pri ukazu Transform/Special/ imamo na voljo tri specialne ukaze: Brainwave Synchronizer, Distortion in Music. S temi ukazi lahko dosežemo različna stanja »zavesti«, popačenja signala in lahko primešamo glasbo v simbolnem zapisu (notnI zapis). Z ukazom /Transform/Time/Pitch/Stretch lahko spremenimo tempo ali višino tona. Lahko celo spremenimo tempo, ne da bi pri tem pokvarili višino tona ali obratno. To je še posebno uporabno pri uravnavanju višine tona, ali izenačititvi dveh različnih zvokov (signal lahko tudi upočasnimo in razčlenimo na posamezne note).

Slika 7.6: Meni Transform z izbirnimi možnostmi.

Page 90: UNIVERZA V MARIBORU FAKULTETA ZA ...zvoka se odbije od sten sobe in potuje po daljših poteh, kot direkten zvok in tako doseže ušesa nekoliko kasneje (pot B). Odbiti zvoki so tudi

82

Četrta skupina ukazov nam omogoča generirati določene vrste signalov (slika 7.7). Generiramo lahko DTMF69 signale (za klicanje telefonskih številk preko PSTN). Ti signali so priporočeni s strani CCITT70 kot signali za telefone s tipkovnicami. DTMF signali, generirani s pritiskom številke na telefonu, so drugačni od MF (Multi Frequency) tonov, generiraih v telefonskem omrežju za prenos informacije. Kadar želimo kreirati naključni šum različne barve, uporabimo generiranje šuma, kjer ima vsaka barva šuma karakteristiko. Z ukazom /Generate/ Tones lahko generiramo signale, ki bodo imeli obliko čistega sinusa, pravokotni impulz, žago ali katerokoli obliko signala pri katerikoli frekvenci, ki jo bo dovolila trenutna frekvenca vzorčenja (polovica frekvence vzorčenja je najvišja frekvenca, ki je vsebovana v signalu). Generiramo lahko tudi harmonike za osnovno frekvenco, moduliramo ton z določeno frekvenco in avtomatsko pretvorimo eno frekvenco v drugo.

Slika 7.7: Meni Generate.

Pri zadnji, peti, skupini ukazov lahko dobimo frekvenčno in statistično analizo signala (slika 7.8). Z izbiro /Analyze/Frequency Analysis izberemo frekvenčno analizo trenutne pozicije kurzorja. Odpre se nam okno, preko katerega lahko odčitamo katerokoli trenutno vrednost v našem signalu (rumena prekinjena črta) ali sredino izbrane selekcije signala. Program uporablja FFT in tako določi, katere frekvence nastopajo v signalu. Najbolj pomembne interpolira ter jih prikaže. Izbira statistike signala nam poda statistične informacije o našem signalu (največja vrednost amplitude, minimalna in maksimalna vednost vzorca itd).

Slika 7.8: Meni Analyze.

69 angl. Dual Tone Multi-Frequency 70 angl. International Telegraph and Telephone Consultative Committee

Page 91: UNIVERZA V MARIBORU FAKULTETA ZA ...zvoka se odbije od sten sobe in potuje po daljših poteh, kot direkten zvok in tako doseže ušesa nekoliko kasneje (pot B). Odbiti zvoki so tudi

83

8. PREDSTAVITEV DIPLOMSKEGA DELA S PROGRAMSKIM ORODJEM MACROMEDIA DIRECTOR Drugi del praktičnega dela naše naloge je bila interaktivna multimedijska predstavitev diplomskega dela. Kot digitalne medije smo uporabili tekst, sliko in zvok – tekst in slika kot predstavitev pisnega dela diplome ter zvok, kot akustični medij za ponazoritev in prikaz opisanega pri produkciji in reprodukciji digitalnega zvoka. Predstavitev je interaktivna, kar pomeni, da uporabnik sam izbira strani, katere želi pregledati. Po predstavitvi se premikamo s tipkami naprej, nazaj. Smerne tipke nas prestavijo za eno stran naprej/nazaj. Tu je še tipka kazalo, ki nas postavi na začetek, kjer je kazalo poglavij – slika 8.1, preko katerih lahko skočimo na določeno poglavje. Na vsaki nasledji strani imamo tudi podpoglavja posameznega poglavja, ki nas s pritiskom na želeno tja tudi prestavi. Po tekstu v predstavitvi se lahko premikamo s pomočjo drsnika, slike pa lahko povečamo s pritiskom nanje. Pri poglavju Cool Edit imamo na izbiro še zvočne primere ki jih lahko izberemo z miško. Rezultati so najbolje predstavljivi s stereo slušalkami. Kadar kliknemo na določen zvočni primer, se predvaja glasbeni ali govorni posnetek. Če želimo ustaviti predvajanje, kliknemo na stop ali pa izberemo naslednjega. Posnetek se predvaja v celoti, tudi če izberemo naslednjo stran.

Slika 8.1: Izgled okna predstavitve.

Page 92: UNIVERZA V MARIBORU FAKULTETA ZA ...zvoka se odbije od sten sobe in potuje po daljših poteh, kot direkten zvok in tako doseže ušesa nekoliko kasneje (pot B). Odbiti zvoki so tudi

84

8.1 Macromedia Director Avtorska orodja, ki temeljijo na časovnem sosledju, so univerzalno uporabna tako za ča-sovno neodvisne kot časovno odvisne medije. Omenjena programska oprema omogoča ce-lovit pristop pri izdelovanju multimedijskih dokumentov tako za svetovni splet (Internet), kot za samostojen dokument bodisi na zgoščenki, bodisi kot samostojen program. Program Macromedia Director se je razvil iz programa MacroMind Director, ki je nastal leta 1985 in je bil namenjen za kreiranje 'on screen' animacij. Z razvojem zmogljivosti računalnikov, ki so omogočili sintezo grafike, glasbe in videa s samim računalnikom, se je razvijal tudi program Director. Danes se program imenuje Macromedia Director 7 (uporabljali smo različico 6.5) in predstavlja multimedijsko avtorsko orodje, ki lahko kombinira grafiko, slike, tekst, glasbo, video in ostale medije, uporablja pa tudi vsajen programski jezik Lingo, ki je namenjen pisanju scenarijev. S pomočjo vsajenega programskega jezika lahko naredimo interaktivno predstavitev, kateri lahko določamo vrstni red izvajanja.

Postopek dodajanja zvoka v predstavitev je povezan z nastavljanjem zvoka tako, da je na najboljši možen način vklopljen v predstavitev. Z uporabo skriptnega jezika Lingo je mogoče predvajati zvok na različne načine, pri čemer je potrebno upoštevati format zvokovne datoteke, vire, podporne programe, tehnično podporo in še marsikaj za ustvarjanje čim kvalitetnejšega zvoka. Director je kompatibilen z naslednjimi formati zvokovnih datotek:

- AIFF (Audio Interchange File Format) je eden od najbolj priljubljenih formatov, saj je univerzalni format,

- WAV je PC standard in je format, ki se zelo veliko uporablja pri uporabi Directorja in katerega lahko kontroliramo s pomočjo že zasnovanih obnašanj,

- QuickTime ali Video for Windows sta formata katera ponavadi uporabljamo za digitalne video filme. Ustvarjanje samo zvočnih filmov je prav tako možno. Omogočajo uporabo Lingo-a za različne učinke,

- MIDI (Musical Instrument Digital Interface). MIDI standard definira nabor sporočil za MIDI glasbene naprave (npr. MIDI klaviature, MIDI sekvencerje, MIDI sintetizatorje),

Vsi navedeni formati niso kompatibilni na operacijskem sistemu Windows, kar lahko predstavlja večje težave pri uvažanju zvoka ali sklicevanju na zunanje zvokovne zasedbe. Glasbo (.wav ali .aiff) lahko vključimo v predstavitev tako, da jo iz knjižnice (Cast) potegnemo v okno Score v enega izmed glasbenih kanalov. Director uporablja dva glasbena kanala tako, da lahko poslušamo dve glasbi hkrati, vendar je možno tudi predvajanje več zvokov. Število predvajanih zvokov je sistemsko omejeno. Če hočemo da se sliši celotna glasba, ji moramo v oknu Score nastaviti ustrezno dolžino tako, da z miško zgrabimo zadnji okvir glasbenega lika in ga potegnemo naprej ali nazaj, ali da uporabimo ukaz Tempo Channel \ Wait for Cue point \ End. Namreč, ko se lik konča, glasba izgine. Drugače pa je, če glasbi določimo, naj se neprestano ponavlja (loop). Zvoku lahko določimo že obstoječe obnašanje za zvok iz knjižnice obnašanj (Behaviour Library, slika 8.2.) lahko pa napišemo novo obnašanje s pomočjo skriptnega jezika Lingo.

Page 93: UNIVERZA V MARIBORU FAKULTETA ZA ...zvoka se odbije od sten sobe in potuje po daljših poteh, kot direkten zvok in tako doseže ušesa nekoliko kasneje (pot B). Odbiti zvoki so tudi

85

Slika 8.2: Pogled na izbiro obnašanj za zvok v knjižnici obnašanj.

Drugi način uporabe zvoka je, da pretvorimo .wav format zapisa zvoka pretočni avdio t.i. .swa format (Shockwave for Avdio) s pomočjo ukaza XTRAS > SHOCWAVE FOR AUDIO SETTINGS in določimo lastnosti: zgoščevanje, kvaliteto… slika 8.3. Tako pretvorimo glasbo v objekt, ki se lahko uporablja kar v predstavitvenih kanalih (kot ostale objekte) in ne v enem izmed glasbenih kanalov. Na tak način lahko na glasbo vplivamo še z drugimi obnašanji, ki jih najdemo v knjižnici obnašanj in ne samo s tistimi, ki so na voljo za obnašanje zvoka.

Slika 8.3: Nastavitve lastnosti glasbe.

Tretja možnost je, kot sem že omenil, uporaba skriptnega jezika Lingo. Lingo je objektno orientiran program. Imamo na voljo dve možnosti. Lahko napišemo skripto tako, da uporabimo knjižnico dogodkov in akcij (BEHAVIOR INSPECTOR). Tak pristop je namenjen za pisanje enostavnih programov (Slika 8.4). Ta pristop pa ne omogoča pisanje

Page 94: UNIVERZA V MARIBORU FAKULTETA ZA ...zvoka se odbije od sten sobe in potuje po daljših poteh, kot direkten zvok in tako doseže ušesa nekoliko kasneje (pot B). Odbiti zvoki so tudi

86

programov, ki vsebujejo veliko različnih akcij in dogodkov. Takrat moramo uporabiti znanje programiranja in napisati skripto sami. To naredimo tako, da v oknu Score izberemo opcijo NEW SCRIPT, in napišemo novo skripto (Slika 8.5).

Slika 8.4: Okno Behavior inspector.

Slika 8.5: Določitev nove skripte.

Ko se med predvajanjem zgodi nek dogodek (npr. MouseUp – spustimo tipko miške ), kreira Director sporočilo in mu dodeli enako ime kot je ime dogodka. To sporočilo pošlje po določenem vrstnem redu skozi skripte in išče dogodek s tem imenom. Če ga v skripti najde izvrši akcijo in gre naprej na naslednjo skripto. Poznamo veliko različnih dogodkov. Najbolj enostavni so: Mouse Up – spustimo tipko miške, Mouse Down – pritisnemo tipko miške, Right Mouse Up –pritisnemo desno tipko miške , Mouse Leave – kurzor se pomakne iz objekta, Mouse Within – kurzor se pomakne na objekt, key Up – spustimo tipko tipkovnice, key Down – pritisnemo tipko tipkovnice,

Page 95: UNIVERZA V MARIBORU FAKULTETA ZA ...zvoka se odbije od sten sobe in potuje po daljših poteh, kot direkten zvok in tako doseže ušesa nekoliko kasneje (pot B). Odbiti zvoki so tudi

87

Prepare Frame – priprava okvira, Exit Frame – izhod iz okvira, StartMovie – začetek predvajanja, StopMovie – zaustavitev predvajanja, ActivateWindow – okno postane aktivno.

Lingo vsebuje veliko različnih akcij (akcije za navigacijo, akcije za ustavitev predvajanja, akcije za tipkovnico, akcije za kontroliranje digitalnega videa, ...), ena izmed njih je tudi akcija za kontroliranje glasbe: SoundBusy – kontrolira, če je kanal zaseden z glasbo (npr. SoundBusy 1). Sound stop – ustavi izvajanje glasbe (npr. Sound stop 1 ). The volume of Sound – omogoča nadzor glasnosti glasbe (npr. Set the volume of sound 2 to 130 ). PuppetSound "Ime" – ko dospe predvajalna glava do te skripte začne predvajati glasbo, ki smo jo določili, čeprav ni vključena v glasbeni kanal. Ta ukaz potegne glasbo iz knjižnice in jo začne predvajati (npr. if not soundBusy(1) then puppetSound "valček"). Sound fadeout – dosežemo da glasba postopoma utiša. Sound fadein – dosežemo da glasnost postopoma narašča. Slika 8.6 prikazuje primer skripte, ki ustavi predvajanje glasbe (kanal 2) ob vstopu v okvir, če je le ta aktiven.

Slika 8.6: Primer skriptnega kontroliranja glasbe.

Vsajen programski jezik Lingo lahko uporablja strukture kot so : IF, REPEAT, WHILE, CASE…, kar zelo poenostavi programiranje. Prav tako lahko uporablja lokalne in globalne spremenljivke. 8.2 Umestitev zvoka v multimedijsko predstavitev V zvočnih primerih smo uporabili digitalni zvok, ki smo ga posneli z osebnim računalnikom: glasba in govor. Za predvajanje glasbenih odsekov (MP3 format zapisa zvoka) smo uporabili programski MP3 predvajalnik Winamp (lahko bi tudi kateregakoli drugega). Odseke glasbe smo nato predvajali in jih hkrati posneli s programskim orodjem Cool Edit. Posnetki so zapisani v formatu .wav (Windows PCM), katere podpira Macromedia Director z različnimi osnovnimi nastavitvami. Uporabili smo tudi govor, katerega smo posneli preko mikrofona in prav tako shranili v formatu .wav. Uporabili smo samo formate zapisa.wav, ki smo jih uvozili v interno zasedbo (Internal Cast) pod opcijo »Link to External File« in standardna obnašanja zvoka iz knjižnice obnašanj. Najpogostejši ukaz, ki smo ga uporabili je »Sound Play Castmember«, s katerim določimo, kateri zvok se naj predvaja, na katerem kanalu in ob katerem dogodku. Vse objekte (tekst, slika, zvok) smo uvozili kot »Link to External File«, vsi podatki pa se nahajajo v mapi /predstavitev/.

Page 96: UNIVERZA V MARIBORU FAKULTETA ZA ...zvoka se odbije od sten sobe in potuje po daljših poteh, kot direkten zvok in tako doseže ušesa nekoliko kasneje (pot B). Odbiti zvoki so tudi

88

Kot smo že omenili, smo imeli pri predstavitvi nekaj problemov pri predvajanju formata zvočnega zapisa .wav s programskim orodjem Macromedia Director; tako eksternih kot internih podatkov (.wav format zapisa zvoka). Director namreč verno predvaja (podpira) samo določene frekvence vzorčenja (najbolj verne so predstavitve pri fs=22 kHz, ločljivosti 16 bitov in mono kanalu), ostale, ki niso v okviru teh frekvenc, pa predvaja nepravilno. Zato smo vse posnetke, ki so bili posneti pod različnimi parametri (originali), vzorčili zs 22 kHz / 16 bitov / stereo (mono pri govoru). Tako dobljeni posnetki se slišno razlikujejo, vendar je ta razlika sedaj posledica naslednjih dveh vzrokov: različnih nastavitev snemanja (frekvenca vzorčenja, ločljivost) in naknadnega vzorčenja. Originalni posnetki različnih nastavitev glavnih parametrov se med seboj razlikujejo, dodatno vzorčenje višje frekvence izloči in nižje tako izpostavi. Zato to kar slišimo v predstavitvi, ni najvernejša reprodukcija zvoka. Da bi pravilno interpretirali slišne razlike, ki se pojavijo pri spreminjanju parametrov, brez dodanih razlik zaradi ponovnega vzorčenja (podvzorčenja), priporočamo, predvajanje primerov z orodjem, ki verno reproducira zvok (Winamp, Windows Media Player, ...) in s stereo slušalkami (zaradi jasnejših in izrazitejših razlik). Originalni posnetki so posneti na priloženi zgoščenki:

- \predstavitev\sound\wav\govor\govor_original - \predstavitev\sound\wav\glasba\glasba_original - \predstavitev\sound\wav\glasba\klasika_original

Ostali posnetkiki dopolnjujjeo poglavje Cool edit/ Operacije so posneti na: - \predstavitev\sound\wav\cooledit

Page 97: UNIVERZA V MARIBORU FAKULTETA ZA ...zvoka se odbije od sten sobe in potuje po daljših poteh, kot direkten zvok in tako doseže ušesa nekoliko kasneje (pot B). Odbiti zvoki so tudi

89

9. SKLEP V času, ko smo se ukvarjali z diplomsko nalogo, smo spoznali bistvene parametre, ki so pomembni pri produkciji in reprodukciji digitalnega zvoka – s spreminjanjem treh glavnih parametrov: frekvence vzorčenja, ločljivostjo in številom kanalov pri snemanju kot tudi pri podvzorčenju signalov smo izpostavili njihove glavne značilnosti. Prav tako smo predstavili cel spekter parametrov, ki vplivajo na zvok, z uporabo digitalnega avdio urejevalnika (Cool Edit 96). Pri spreminjanju treh glavnih parametrov (frekvenca vzorčenja, ločljivost in število kanalov) smo opazovali spremembem, ki se pojavijo .Pri frekvenci vzorčenja je bistveno zadostiti Nyquistovemu teoremu vzorčenja. V tem primeru je frekvenca vzorčenja 44.1 kHz, ki je sprejeta tudi kot standardna frekvenca vzorčenja (CD–DA). Kadar signal zajemamo z nižjimi frekvencami vzorčenja, se slišne razlike zaradi spremembme frekvence vzorčenja pojavijo nekje pri frekvenci vzorčenja pod 22 kHz. Uporabili smo le dve ločljivosti: ločljivost 8 b in ločljivost 16 b. Pri 16 bitni ločljivosti ne opazimo več kvantizacijske napake, ki se pojavi pri 8 bitni kot moteče šumenje po celotnem signalu. Vpliv števila kanalov na sam zvok je drugačen, kot do sedaj obravnavana parametra. Kadar delamo z mono signalom (snemamo samo z enim mikrofonom; govor je izvor mono signala), bomo imeli pri stereo predvajanju na obeh kanalih (levi in desni kanal) isti zvok (isti signal). Tako ne bomo ločili, od kod prihaja zvok oz. ne bomo dobili zvočne prostorske slike. Pri stereo signalih pa je zvok posnet v stereo tehniki (dva mikrofona, slika 5.20). Vsak kanal ima svoj zapis istega izvora zvoka, kar pri predvajanju omogoča določiti smer prihajanja zvoka.

Pri uporabi digitalnem urejanju zvoka smo praktično omejeni samo z našo domišljijo. Dosežemo lahko kakršen koli efekt, transformacijo ali pretvorbo našega signala. Spoznamo lahko, kako pomemben je stereo predvajanje in mono predvajanje, katere lastnosti lahko spremenimo tako pri mono kot pri stereo signalu, koliko pomeni frekvenca vzorčenja, kadar želimo spremeniti signal ali uporabiti katero funkcijo transformiranja.

Ena pomembnejših transformacij, ki jo lahko dosežemo, je transformacija amplitude, kjer lahko spreminjamo ojačanje signala, mešanje, vplivamo na ovojnico signala (zelo priročno), uravnavamo dinamiko (vplivamo s pomočjo) in normalizacija signala.

Najbolj zanimivi so efekti zakasnitev, pri katerih moramo sami nastavljati stopnjo odmeva, zakasnitev kot tudi odmevni izravnalnik (echo equalizer), določimo lahko velikost sobe (3D echo) in njene lastnosti (faktor absorbiranja sten). 3D sobni odmev izračunava dejanski odmev, ki bi bil, če bi imeli izvor zvoka in mikrofone v sobi, ki bi bila željeno velika in ki bi imela stene z željenim odbojnim faktorjem. Pri zadnjem efektu (3D echo) je zelo pomembna določitev postavitve zvočnikov in mikrofonov, saj lahko napačna postavitev vodi do nepravilnih izračunov in prej dobimo napačen efekt, kot pravega kanala

Page 98: UNIVERZA V MARIBORU FAKULTETA ZA ...zvoka se odbije od sten sobe in potuje po daljših poteh, kot direkten zvok in tako doseže ušesa nekoliko kasneje (pot B). Odbiti zvoki so tudi

90

(zelo učinkovito, kadar imamo izvor mono signal, in ga želimo razdeliti med dva kanala tako, kot da je posneto v stereo tehniki).

Pomembno je tudi filtriranje signala, kjer lahko uporabimo FFT filter ali hitri filter. FFT fileter uporabimo, da odstranimo neželjene frekvence ali da obdržimo željene ferkvence z uporabo pasivne metode. Logaritmično metodo uporabimo za dvig ali nižanje frekvenčnih komponent. Osem pasovni filter (hitri filter) nam omogoča nastavitev osem frekvenčnih področij po naši izbiri. Izenačevalec (equalizer) deluje podobno kot standardni avdio izenačevalec, razen da frekvenčni pasovi, niso enaki. Pas visokih frekvenc bo povečal ali znižal visoke frekvence, vendar bo tudi povečal ali znižal ostale nižje frekvence (visoke frekvence poveča ali zmanjša bolj kot ostale). Efekt je skoraj podoben izenačevalcu.

Z ukazom odstranjevanja šuma lahko odstranimo šum, ki se pojavi v ozadju in generalen šum, ki se pojavi preko celega signala z minimalno razliko v kvaliteti. Količina odstranjenega šuma je odvisna od tipa šuma, ki se pojavlja in dovoljenih izgub v kvaliteti signala, ki se ohranja. Dosežemo lahko 21 dB odstranjenih šumov na 1 dB pojemka originala.

Zanimivi so tudi specialni ukazi. S temi ukazi lahko dosežete različna stanja zavesti, popačenja signala in lahko primešate glasbo, napisano z notami. Opisani primeri, ki sem jih uporabil, mogoče niso najboljši primeri (predvsem pri ukazu »Brainwave Synchronizer in Music), saj bi moral vedeti kaj več o meditaciji (stanja zavesti) ter pisanju glasbe.

Z transformacijo raztegovanja lahko spremenimo tempo ali višino tona. Lahko celo spremenite tempo, ne da bi pri tem pokvarili višino tona ali obratno. To je še posebno uporabno pri uravnavanju višine tona, ali izenačiti dveh različnih zvokov, ali toliko upočasnimo, da razčlenimo glasbo na vsako noto.

Zelo priročna je tudi analiza signala. Izberemo lahko frekvenčno analizo trenutne pozicije kurzorja ali odsek označene glasbe. Program uporablja FFT (Fast-Fourier-Transform), da določi, katere frekvence nastopajo v trenutku v signalu, in najbolj pomembne interpolira ter jih prikaže. Vidimo lahko frekvenco in amplitudo dane točke v signalu s premikom miške po izrisanem grafu. Informacija, ki jo nudi graf, je rezina ali trenutni prerez signala v spektralnem pogledu. Digitalni avdio urejevalnik je zelo priročno orodje, s katerim lahko urejamo naš zvok tako, kot nam dovoli domišljija. Omogoča nam shranjevaje signalov v mnogih avdio formatih zapisa. Mogoče bi lahko imeli več možnosti pri izbiri frekvence vzorčenja, saj lahko nastavimo največ 48 kHz, in več Potrebno je povdariti, da če želimo uporabljati digitalni urejevalnik, brez osnovne teoretične podlage (brez znanja o lastnostih digitalnega zvoka) ne moremo uspešno vplivati na željene spremembe signala, ki ga urejamo, oziroma je delo z digitalnim urejevalnikom bolj neučinkovito, kot nasprotno.

Page 99: UNIVERZA V MARIBORU FAKULTETA ZA ...zvoka se odbije od sten sobe in potuje po daljših poteh, kot direkten zvok in tako doseže ušesa nekoliko kasneje (pot B). Odbiti zvoki so tudi

91

10. LITERATURA KNJIGE [1] S. J. Gibbs, Multimedia programing – objects, enviroments and frameworks, 1. izd., Addison – Wesley Publishing Company, New York, 1995 [2] B. Horvat, J. Strgar, Večpredstavnost: Multimedijski sistemi, 1. izd., Zalžništvo fakultete za elektrotehniko, računalništvo in informatiko, Maribor, 2002. [3] B. Horvat, J. Stergar, Telekomunikacijska tehnika in sistemi, 1. izd., Zalžništvo fakultete za elektrotehniko, računalništvo in informatiko, Maribor, 2001. [4] Z. Kačič, Komunikacija človek – stroj, 1. izd., Zalžništvo fakultete za elektroniko, računalništvo in informatiko, Maribor, 1995. [5] R. Kirk, A. Hunt, Digital sound processing for music and multimedia, 1.izd., Butterworth – Heinemann, Oxford, 1999. [6] A.C. Luther, Principles of digital audio and video, 1. izd., Artech House, INC., Nortwood, 1997. [7] K.C. Pohlmann, Principles of digital audio, 1. izd., Howard W. Sams & Co., Indianapolis, 1987. [8] K. C. Pohlmann, The compact disc, 2. izd., Oxford University Press, Oxford, 1992. [9] B. Ravnikar, Osnove glasbene akustike in informatike, 1. izd., DZS, d.d, Ljubljana, 1999 [10] R. Steinmetz, K. Nahrstedt, Multimedia: Computing, communications & applications, 1. izd., Prentice Hall PTR, New York, 1995. [11] J. Watkinson, The art of digital avdio, 2. izd.,Butterworth – Heinemann Ltd, Oxford, 1994 [12] M. Jagodič,Digitalne telekomunikacije,1 izd., Založništvo fakultete za elektrotehniko, računalništvo in informatiko, Maribor 2002 [13] W. Stallings, Data and computer communikacions, 6. izd., Prentice Hall, New Yersey 2000 INTERNET [#1] (5.3.2003). http://www2.arnes.si/~akralj1/studij/gradivo/izobr_tehn/odgovori1.htm [#2] (5.3.2003). http://www.corrado.si/vodic-hifi.htm

Page 100: UNIVERZA V MARIBORU FAKULTETA ZA ...zvoka se odbije od sten sobe in potuje po daljših poteh, kot direkten zvok in tako doseže ušesa nekoliko kasneje (pot B). Odbiti zvoki so tudi

92

[#3] (10.3.2003). http://ccrma-www.stanford.edu/courses/192b/lectures/5/5.html [#4] (18.3.2003). http://uranus.ee.auth.gr/report/eng/part1/chapt-03/3-1-6.html [#5] (18.3.2003). http://www.dvd-si.com/info_audio1.php [#6] (18.3.2003). http://www.corrado.si/c-press-oteminonem-sacd.htm [#7] (25.3.2003). http://www.dolby.com/company/is.ot.0011.TechOverview.html [#8] (25.3.2003). http://www.dolby.com/cassette/bcsnr/ [#9] (25.3.2003). http://www.dolby.com/cassette/bcsnr/common.html [#10] (25.3.2003). http://www.dolby.com/cassette/bcsnr/btype.html [#11] (25.3.2003). http://www.dolby.com/cassette/bcsnr/ctype.html [#12] (25.3.2003). http://www.dolby.com/cassette/bcsnr/stype.html [#13] (25.3.2003). http://www.infomediji.si/s.nsf/vse/ [#14] (25.3.2003). http://www.dolby.com/company/is.ot.0011.TechOverview.03.html [#15] (25.3.2003). http://www.dolby.com/tech/desgnac3.pdf [#16] (25.3.2003). http://www.dvd-si.com/info_audio6.php [#17] (25.3.2003). http://www.dolby.com/digital/diggenl.html [#18] (25.3.2003). http://www.dolby.com/tech/m.br.9903.surroundtech.html [#19] (25.3.2003). http://www.dolby.com/ht/Guide.HomeTheater.0110.html [#20] (1.3.2003). http://www.infomediji.si/s.nsf/vse/29B193C23ED2671BC1256B970066B190?OpenDocument [#21](25.3.2003). http://www.4i2i.com/reed_solomon_codes.htm [#22] (25.3.2003). http://www.harmony-central.com/MIDI/Doc/tutorial.html [#23] (25.7.2003). http://standards.ieee.org/announcements/p1639app.html [#24] (25.7.2003). http://ilmari.siba.fi/users/pdonner/G711Tool.htm [#25] (25.3.2003). http://www.digitalaudioguide.com/faq/dvd-audio/faq_2.htm

Page 101: UNIVERZA V MARIBORU FAKULTETA ZA ...zvoka se odbije od sten sobe in potuje po daljših poteh, kot direkten zvok in tako doseže ušesa nekoliko kasneje (pot B). Odbiti zvoki so tudi

93

[#26] (25.3.2003). http://www.xentec.be/products/vox_studio/help/dialogic_formats.htm [#27] (25.3.2003). http://www.sprintbit.info/faphelp/AudioFormats.htm [#28] (25.3.2003). http://www.dolby.com/dvs/white.paper.html [#29] (25.3.2003). http://www.dvd-si.com/clanek_prologic.php Programska oprema:

HELP FILE – Stvarno kazalo , programsko orodje: Macromedia Director 6.5, proizvajalec_ Macromedia

Page 102: UNIVERZA V MARIBORU FAKULTETA ZA ...zvoka se odbije od sten sobe in potuje po daljših poteh, kot direkten zvok in tako doseže ušesa nekoliko kasneje (pot B). Odbiti zvoki so tudi

94

11. PRILOGA A) PRILOŽENA ZGOŠČENKA: Slika 11.1 predstavlja vsebino priložene zgoščenke:

Slika 11.1: Vsebina zgoščenke.

Slika 2 predstavlja vsebino mape \predstavitev na priloženi zgoščenki:

Slika 11.2: Vsebina direktorija \predstavitev na zgoščenki.

Za zagon predstavitve diplomskega dela je potrebno zagnati Predstavitev.exe (slika 11.2). Na zgoščenki je tudi datoteka Navodila (Datoteka z dokumentom), v kateri so opisana navodila za delo s predstavitvijo.