jakoŚĆ usŁug telekomunikacyjnychptitni.tele.pw.edu.pl ›...

of 50 /50
JAKOŚĆ USŁUG TELEKOMUNIKACYJNYCH Sławomir Kula Przemysław Dymarski Marcin Golański Warszawa, maj 2015

Author: others

Post on 23-Jun-2020

0 views

Category:

Documents


0 download

Embed Size (px)

TRANSCRIPT

  • JAKOŚĆ USŁUG TELEKOMUNIKACYJNYCH

    Sławomir Kula

    Przemysław Dymarski

    Marcin Golański

    Warszawa, maj 2015

  • Spis treści 1. Wstęp ........................................................................................................................... 5

    2. Techniki kodowania sygnałów akustycznych i obrazów............................................. 6

    2.1. Cechy sygnału mowy ........................................................................................... 6

    2.2. Percepcja dźwięków przez człowieka .................................................................. 7

    2.3. Kodowanie kompresyjne sygnału mowy ............................................................ 8

    2.4. Kodowanie sygnałów audio ............................................................................... 15

    2.5. Kodowanie obrazów ........................................................................................... 17

    3. Subiektywne metody badania jakości ........................................................................ 19

    3.1. Subiektywne metody badania jakości mowy ..................................................... 19

    3.1.1. Kategoryzacja.............................................................................................. 19

    3.1.2. Testy konwersacyjne ................................................................................... 20

    3.1.3. Testy odsłuchowe ........................................................................................ 20

    3.1.4. Badanie wyrazistości .................................................................................. 21

    3.2. Subiektywne metody badania jakości obrazów ruchomych .............................. 22

    4. Parametryczne metody badania jakości ..................................................................... 23

    5. Obiektywne metody badania jakości na poziomie mediów ...................................... 25

    5.1. Sygnał mowy ...................................................................................................... 25

    5.1.1. SNR w ujęciu globalnym i segmentowym .................................................. 25

    5.1.2. Metody PSQM i PESQ ............................................................................... 26

    5.1.3. Metoda POLQA .......................................................................................... 28

    5.1.4. Metoda 3SQM ............................................................................................. 28

    5.1.5. Testowanie algorytmów PESQ i POLQA ................................................... 28

    5.1.6. Badanie jakości mowy w usłudze VoIP z wykorzystaniem PESQ ............. 30

    5.2. Ocena jakości szerokopasmowych sygnałów akustycznych .............................. 32

    5.2.1. Maskowanie zakłóceń ................................................................................. 32

    5.2.2. Metoda PEAQ ............................................................................................. 34

    5.2.3. Testy i badania z wykorzystaniem PEAQ................................................... 35

    5.3. Sekwencje wideo ................................................................................................ 37

    5.3.1. Zakłócenia i zniekształcenia obrazu ........................................................... 37

    5.3.2. Modele percepcji obrazu ............................................................................. 38

    5.3.3. Strukturalne podobieństwo obrazów (SSIM) .............................................. 42

    5.3.4. Zalecenie J.144 ........................................................................................... 43

    5.3.5. Zalecenia J.247, J.246, J.341 i J.342 ........................................................... 44

    6. Ocena jakości multimediów na podstawie pakietów i strumienia binarnego ............ 45

    7. Ocena jakości gry interaktywnej ............................................................................... 47

    8. Podsumowanie ........................................................................................................... 48

  • Literatura ........................................................................................................................... 49

  • 1. Wstęp

    We współczesnych systemach i sieciach telekomunikacyjnych i teleinformatycznych

    stosowanych jest wiele rozwiązań, w których sygnał mowy, sygnały akustyczne i sygnały

    wideo podlegają różnego rodzaju przekształceniom i przetworzeniom w celu ich sprawnego i

    efektywnego przesyłania, gromadzenia, rozpoznawania i syntetyzowania. Stosowanych jest

    wiele różnych typów koderów, sieci dostępowe i transmisyjne opierają się na nowych

    rozwiązaniach, a integracja sieci telekomunikacyjnych i informatycznych stała się faktem. W

    tej sytuacji ważnym problemem staje się pomiar i kontrola jakości usług, jak VoIP (Voice

    over IP), VT (Videotelephony), VoD (Video on Demand), IPTV, Wideokonferencja.

    Podstawowym czynnikiem wpływającym na jakość usługi QoS (Quality of Service) jest

    jakość dźwięku i obrazu. Oprócz tego uwzględnia się inne czynniki, jak skuteczność

    nawiązywania połączeń, częstość ich zrywania, itp. Choć wpływają one na stopień

    zadowolenia użytkownika z usługi QoE (Quality of Experience), nie będą one rozważane w

    niniejszym referacie.

    Odbiorcą dźwięku i obrazu jest człowiek, z tego względu subiektywne metody badania

    jakości, odwołujące się do ocen grupy odbiorców, są uważane za najdokładniejsze i są

    wykorzystywane do kalibracji innych metod pomiaru jakości. Metody subiektywne, w

    odniesieniu do mowy, innych sygnałów fonicznych, obrazu ruchomego i przekazu

    audiowizualnego zostały włączone do zaleceń ITU-T i ITU-R (Tab.1). Polegają one na

    przeprowadzaniu sformalizowanych odsłuchów dźwięku i pokazów ruchomego obrazu, co

    jest trudne od strony organizacyjnej, długotrwałe i kosztowne. W tej sytuacji dąży się do

    zastąpienia metod subiektywnych oceny jakości metodami obiektywnymi, niewymagającymi

    zaangażowania grupy odbiorców.

    Metody obiektywne można podzielić na kilka grup, w zależności od danych wejściowych

    wykorzystanych do oceny jakości. W metodach funkcjonujących na poziomie mediów

    wykorzystuje się obraz i dźwięk:

    W metodach z pełnym odniesieniem (full reference), zwanych też „intruzyjnymi” (intrusive) jest to sygnał przetworzony (docierający do

    odbiorcy przez sieć) i sygnał oryginalny

    W metodach z częściowym odniesieniem (reduced reference) jest to sygnał przetworzony i pewne parametry sygnału oryginalnego

    W metodach bez odniesienia (no reference), zwanych też „nieintruzyjnymi” (nonintrusive) jest to wyłącznie sygnał przetworzony (tzn. zniekształcony

    dźwięk i obraz)

    Dla stałej kontroli jakości usług wygodniejsze są metody, opierające się na badaniu

    strumienia pakietów IP. Nie wymagają one dostępu do dźwięku i obrazu, a do oceny jakości

    wykorzystują opóźnienie pakietów, jitter opóźnienia, prawdopodobieństwo utraty pakietu,

    jego uszkodzenia, itd. Znane też być muszą wykorzystywane kodeki i algorytmy maskowania

    skutków utraty pakietów (jeśli takie są używane). Jeśli w badaniu jakości usługi chcemy

    uwzględnić stan warstwy fizycznej kanału, to metody pomiaru jakości muszą wykorzystywać

    jako dane wejściowe parametry strumienia binarnego (BER, itd.). Można w ten sposób

    uwzględnić działanie kodów zabezpieczających przed błędami binarnymi (przy działaniu na

    poziomie pakietów nie jest to możliwe). Poza tym można uwzględnić wpływ przekłamania

    poszczególnych bitów na jakość dźwięku czy obrazu.

    Do planowania sieci i doboru terminali pod kątem zapewnienia jakości usług nadają się

    metody parametryczne, wykorzystujące jako dane wejściowe parametry połączenia

    telekomunikacyjnego (rodzaj kodeka, przepływność binarna, opóźnienie w transmisji, itp.).

    Najbardziej popularny jest tu E-model (zalecenie G.107 dla telefonii).

    Obecnie ITU stymuluje badania nad hybrydowymi metodami pomiaru jakości, np.

    mającymi dostęp do mediów i do strumienia binarnego (np. projekt J.bitvqm).

  • Tabela 1 Wybrane normy ITU-T i ITU-R odnoszące się do pomiaru jakości

    Metody subiektywne obiektywne

    poziom mediów poziom

    pakietów/bitów

    parametryczne hybrydowe

    Mowa P.800

    P.810

    P.830

    P.861

    P.862 (PESQ)

    P.863 (POLQA)

    P.563 (3SQM)

    P.564 G.107 (E-model) P.CQO*

    Audio BS1116

    BS1284

    BS1387 (PEAQ)

    P.1201, P.1202

    (P.NAMS*

    P.NBAMS*)

    G.113

    Wideo BT500

    P.910

    J.140

    J.144

    BT1683

    J.246, J.247

    J.341, J.342

    G.1070

    G.OMVS*

    J.343

    J.bitvqm*

    Multimedia P.911 J.148

    *nazwy robocze

    W kolejnych podrozdziałach referatu skoncentrowano się na prezentacji wybranych

    subiektywnych i obiektywnych metod oceny jakości mowy, sygnału audio i sygnału wideo

    dla potrzeb badania różnego rodzaju połączeń, którymi są przesyłane te sygnały oraz

    urządzeń, systemów i sieci realizujących takie połączenia.

    2. Techniki kodowania sygnałów akustycznych i obrazów

    2.1. Cechy sygnału mowy

    Sygnał mowy ludzkiej ma widmo zawarte w zakresie od kilkunastu Hz do nawet powyżej

    17 kHz. W sygnale tym, który ma fragmentami cechy sygnału quasi stacjonarnego można

    wyróżnić fragmenty mowy dźwięcznej (odpowiadające głoskom dźwięcznym – struny

    głosowe drgają), mowy bezdźwięcznej (odpowiadające głoskom bezdźwięcznych – struny

    głosowe nie drgają) i ciszy. Cisza występuje w wielu miejscach sygnału mowy. Może być

    ciszą międzyzdaniową, międzywyrazową, a także wewnątrzwyrazową. Czas trwania głosek

    jest zależny od rodzaju głoski (zwykle głoski dźwięczne są dłuższe od głosek

    bezdźwięcznych), ale też od pozycji głoski i od akcentowania. Głoski dźwięczne są z reguły

    mocniejsze (głośniejsze). Ich energia jest większa. Przejście między kolejnymi głoskami jest

    związane ze zmianami w trakcie głosowym i jest nazywane transjentem. Na rys. 2.1 pokazano

    przykładowy przebieg sygnału mowy.

  • Rys. 2.1. Sygnał mowy

    2.2. Percepcja dźwięków przez człowieka

    Percepcja sygnału mowy przez aparat słuchowy człowieka jest procesem

    skomplikowanym i do pewnego stopnia zależy od indywidualnych cech słuchacza. W

    szczególności warto zwrócić uwagę na maskowanie sygnałów. Może ono mieć miejsce w

    dziedzinie częstotliwości – rys.2.2 (dźwięki występuję jednocześnie, ale różnią się

    częstotliwością) oraz w dziedzinie czasu – rys. 2.3 ( dźwięki występuję po sobie).

    Maskowanie w dziedzinie czasu może być zarówno maskowaniem wprzód jak i wstecz. W

    wyniku maskowania sygnału maskowanego nie słyszymy.

    Rys. 2.2. Maskowanie w dziedzinie częstotliwości

  • Rys.2.3. Maskowanie w dziedzinie czasu

    2.3. Kodowanie kompresyjne sygnału mowy

    Kwantyzacja Kwantyzacja jest podstawowym procesem stosowanym w technikach kodowania

    stratnego. Występuje ona we wszystkich algorytmach kompresji stratnej, albo jako jedyny

    blok (kodowanie PCM), albo jako jeden z bloków. Ogólnie można powiedzieć, że

    kwantyzacja polega na odwzorowaniu nieskończonego albo bardzo licznego zbioru w

    skończony zbiór o mniejszej, najczęściej niewielkiej liczbie elementów. Niewielka liczba

    elementów drugiego zbioru pozwala na ich przedstawienie za pomocą niewielkiej liczby

    bitów. Najczęściej pierwszym zbiorem jest przedział, albo cały zbiór liczb rzeczywistych,

    drugim skończony podzbiór liczb rzeczywistych. Dobrze znanymi przykładami układów, w

    których jest wykonywana kwantyzacja to przetworniki analogowo/cyfrowe. Kwantyzacja jest

    integralną częścią procesu cyfryzacji sygnałów analogowych.

    Kwantyzację sygnału realizuje układ zwany kwantyzatorem, albo kwantyzerem. Dany

    kwantyzator jest scharakteryzowany za pomocą dwóch zestawów liczb: progów kwantyzacji i

    poziomów kwantyzacji. Progi kwantyzacji określają podział zbioru liczb rzeczywistych na

    przedziały kwantyzacji. Wszystkie liczby z danego przedziału kwantyzacji są reprezentowane

    za pomocą jednego poziomu kwantyzacji.

    Symbolicznie, jeżeli 121 ... Nxxx są progami kwantyzacji )( 11 Nxx , a

    Nyyy ,...,, 21 - poziomami kwantyzacji, to działanie kwantyzatora można opisać następująco.

    Niech x będzie próbką wejściową kwantyzatora. Odpowiadająca jej próbka wyjściowa x’ jest

    równa yi wtedy i tylko wtedy , gdy ),[ 1 ii xxx . W praktyce kwantyzator dzieli się na dwa

    układy. Pierwszy z nich i znajdujący się w koderze, oznaczany dalej jako funkcja Qc(x),

    oznacza przedział kwantyzacji, do którego należy próbka wejściowa x i generuje indeks i -

    numer tego przedziału ))(( xQi c . Zakodowany binarnie indeks i jest przesyłany do

    dekodera, w którym drugi układ kwantyzatora , oznaczany jako funkcja Qd(i), generuje na

    podstawie indeksu odpowiedni poziom kwantyzacji )(iQy di . Liczba poziomów

    kwantyzacji jest na ogół wybierana jako potęga 2, gdyż umożliwia to użycie całkowitej liczby

    bitów )(log2 N do przedstawienia dowolnego indeksu przedziału kwantyzacji. Czasem zbiór

    indeksów koduje się jedną z technik kodowania bezstratnego, np. kodu Huffmana.

    Różnica:

    )]([' xQQxxxe cd

  • jest zwana błędem kwantyzacji albo szumem kwantyzacji. We wszystkich technikach

    kodowania stratnego błąd kwantyzacji jest przyczyną różnicy pomiędzy sygnałem

    oryginalnym a zrekonstruowanym. Jego występowanie jest jednak nieuchronne, jeżeli chcemy

    uzyskać duży współczynnik kompresji.

    Zależnie od użytego kwantyzatora, kwantyzacja może być równomierna albo

    nierównomierna, stała, albo adaptacyjna.

    Kwantyzacja równomierna Kwantyzatory równomierne są najprostszymi kwantyzatorami. Działać one mogą w

    oparciu o jedna z dwóch charakterystyk )]([' xQQx cd . Wspólną cechą kwantyzatorów

    równomiernych jest stosowanie jednakowego, stałego skoku kwantyzacji definiowanego następująco:

    1 ii xx

    Wyjątek mogą stanowić skrajne przedziały. O wartości skoku kwantyzacji decyduje

    różnica pomiędzy maksymalną Xmax i minimalną Xmin wartością próbek sygnału

    podlegającego kwantyzacji oraz liczba poziomów kwantyzacji. Z wyjątkiem skrajnych

    przedziałów, błąd kwantyzacji w kwantyzatorze równomiernym spełnia warunek:

    2/2/ e

    Szum kwantyzacji jest dobrze charakteryzowany za pomocą wartości średniej kwadratu

    błędu kwantyzacji. Pomijając dowód, możemy przyjąć, że jeżeli sygnał ma równomierny

    rozkład amplitud próbek, to wartość średnia kwadratu szumu kwantyzacji wynosi 12

    2.

    Przykład

    [Porównaj dwa nagrania. W tym celu kliknij na ikonę Bar32– liczba poziomów

    kwantyzacji wynosi 8, a następnie na ikonę Bar128 – liczba poziomów kwantyzacji 16.

    Kwantyzacja nierównomierna W przypadku sygnałów o dużej dynamice (np. sygnał mowy – po głośnym fragmencie

    następuje fragment cichy) kwantyzacja równomierna może powodować bardzo istotny

    percepcyjnie błąd. Jeżeli dla takiego sygnału zastosujemy kwantyzator o dużym skoku

    kwantyzacji to próbki o małej amplitudzie „wpadać” będą w jeden przedział (w skrajnym

    przypadku może im być przypisana wartość 0) i w odbiorniku będą nie do rozróżnienia. Z

    kolei zastosowanie małego skoku kwantyzacji spowoduje wzrost liczby poziomów

    kwantyzacji, by pokryć cały przedział minmax XX , a więc potrzebę korzystania z większej

    liczby bitów do ich kodowania. Względny błąd kwantyzacji x

    e w kwantyzatorze

    równomiernym jest większy dla próbek o małej amplitudzie niż dla próbek o dużej

    amplitudzie. Aby uniezależnić względny błąd kwantyzacji od amplitudy próbek rozmiar

    przedziału kwantyzacji powinien być proporcjonalny do modułu liczby należącej do tego

    przedziału. Innymi słowy przedziały kwantyzacji powinny być mniejsze dla małych amplitud

    i większe dla dużych amplitud.

    Implementacja zmiennego skoku kwantyzacji może być dokonana dwojako: albo stosując

    kwantyzator o nierównomiernym skoku kwantyzacji rosnącego wraz z amplitudą próbek

    wejściowych, albo stosując kwantyzator równomierny, ale wcześniej przekształcając wartości

    próbek sygnału kwantowanego, w taki sposób, by zmniejszyć dynamikę sygnału. W obu

    przypadkach efekt końcowy będzie taki sam. Wprowadzenie kwantyzacji nierównomiernej

    ma na celu zapewnienie w miarę stałego względnego błędu kwantyzacji, w całym zakresie

    dynamiki sygnału. Istotne znaczenie ma wybór charakterystyki zmian skoku kwantyzacji

    wraz ze zmiana amplitudy próbek, to jest wybór tak zwanej krzywej kompresji. W przypadku

  • sygnału mowy, krzywą najlepiej spełniającą to zadanie jest krzywa logarytmiczna C(x)

    opisana następującym wzorem:

    )1log(

    )1log()(

    xxC

    Kwantyzacja adaptacyjna Większe możliwości kompresji sygnału można uzyskać, gdy skok kwantyzacji

    (równomierny albo nierównomierny) jest zmieniany dynamicznie w zależności od amplitudy

    próbek sygnału poddawanego kwantyzacji. Podobnie jak w przypadku realizacji

    kwantyzatorów nierównomiernych także i tu osiągniecie celu jest możliwe dwoma sposobami

    – albo zmieniamy skok kwantyzacji w zależności od energii sygnału, albo nie zmieniając

    skoku kwantyzacji dokonujemy normalizacji amplitudy sygnału, w taki sposób by jego

    dynamika była zawsze taka sama, przed podaniem próbki na wejście kwantyzatora.

    Dane przesyłane do odbiornika (dekodera) powinny zawierać kolejne indeksy przedziałów

    kwantyzacji. Informacja o aktualnych parametrach kwantyzatora musi być znana w

    odbiorniku. Możliwe jest jej przesyłanie, z każdym razem, gdy parametry kwantyzatora się

    zmieniają i wtedy mamy do czynienia z adaptacją w przód. Inne rozwiązanie opiera się na

    wyznaczaniu w odbiorniku parametrów kwantyzatora na podstawie energii odebranych

    próbek Jest to adaptacja wstecz.

    Kwantowanie skalarne i wektorowe Dotychczas omawialiśmy metody kwantowania skalarnego, to znaczy takie, w których

    analogowej wartości próbki (skalarowi) przypisywana jest jedna wartość ze skończonego

    zbioru - również wartość skalarna. Kwantyzatory wektorowe operują wektorami a nie

    skalarami. Zarówno próbka kwantowana, jak i wynik kwantyzacji są wektorami, ogólnie

    wektorami z przestrzeni N-wymiarowej.

    Podstawową trudnością projektowania kwantyzatorów wektorowych jest określenie

    komórek oraz położenia centroidów, tak by zminimalizować błąd kwantyzacji. Zauważmy, że

    błąd kwantyzacji jest nieco inaczej definiowany niż w kwantyzacji skalarnej. Najczęściej

    stosowaną jego miarą jest błąd kwadratowy:

    N

    i

    ii xxxxd1

    2)(),(

    Jedną z metod projektowania kwantyzatorów wektorowych jest metoda klastrowa, zwana

    również metodą LBG.

    Próbkowanie Reprezentacja cyfrowa sygnału analogowego wymaga wykonania dwóch operacji:

    próbkowania i kwantowania. Próbkowanie polega na zastąpieniu sygnału analogowego

    sekwencją próbek pobieranych w jednakowych, bądź niejednakowych odstępach czasu. W

    jednym i drugim przypadku sygnał po spróbkowaniu nazywa się sygnałem dyskretnym. Jego

    próbki mają taką samą amplitudę, jak sygnał pierwotny w chwili próbkowania. Ze względów

    praktycznych najczęściej stosuje się próbkowanie równomierne, w którym próbki są

    pobierane z sygnału regularnie w ostępach czasu Tp, czyli częstotliwość próbkowania fp,

    wynosi: p

    pT

    f1

    . Okazuje się, że powrót do analogowej postaci sygnału, bez wprowadzenia

    w nim jakichkolwiek zniekształceń jest możliwe. Podstawowe znaczenie ma wybór

    częstotliwości próbkowania. Częstotliwość ta powinna spełniać twierdzenie o próbkowaniu, z

    którego wynika, że:

    Bf p 2 ,

    gdzie: B oznacza szerokość pasma częstotliwościowego sygnału analogowego.

    Twierdzenie o próbkowaniu nazywane jest również twierdzeniem Nyquista, twierdzeniem

    Shannona lub twierdzeniem Kotielnikowa. Połowa częstotliwości próbkowania jest nazywana

    częstotliwością Nyquista. Podane wymaganie na częstotliwość fp wymaga komentarza. Często

  • podaje się powyższy wzór z nierównością nieostrą ( ). Łatwo wykazać, ze tak być nie

    może. Na przykład, jeżeli próbkujemy sygnał sinusoidalny o częstotliwości f0 i częstotliwości

    fp =2f0, to może się zdarzyć, że wszystkie próbki będą miały wartość zerową (rys.2.4). Z

    próbek o wartości zerowej nie możemy odtworzyć sygnału sinusoidalnego. Druga uwaga

    dotyczy szerokości pasma sygnału próbkowanego. Najczęściej podając twierdzenie o

    próbkowaniu przyjmuje się, że częstotliwość próbkowania powinna być dwukrotnie większa

    od największej częstotliwości składowej fmax sygnału próbkowanego. Tak by było, gdyby

    sygnał zajmował pasmo od zera do wspomnianej częstotliwości, wtedy B=fmax. Jeżeli sygnał

    zajmuje pasmo z przedziału [fmin ; fmax], to może on być próbkowany z częstotliwością:

    )(2 minmax fff p , a nie z częstotliwością max2 ff p . Do odtworzenia postaci analogowej

    sygnału trzeba jednak dodatkowo znać częstotliwość minf , albo maxf .

    Rys.2.4. Ilustracja procesu próbkowania

    Cyfryzacja sygnału telefonicznego Szczególne znaczenie i wpływ na współczesną teleinformatykę miała cyfryzacja sygnału

    mowy na potrzeby przesyłania go w sieci telefonicznej. Pasmo sygnału telefonicznego

    zawiera się w zakresie od 300 Hz do 3,4 kHz. Wystarczyło by zatem próbkować ten sygnał z

    częstotliwością niewiele większą od 3,1 kHz. Ponieważ jednak, filtry ograniczające pasmo

    sygnału nie działają idealnie, a także z innych powodów, związanych z rozwiązaniami

    przyjętymi w systemach teletransmisyjnych zdecydowano się przyjąć częstotliwość

    próbkowania fp równą 8 kHz. Przed określeniem liczby poziomów kwantyzacji

    przeprowadzono badania i okazało się, że gdy użyjemy 256 poziomów kwantyzacji, to szum

    kwantyzacji jest wtedy na tyle mały, że nie ma istotnego wpływu na wrażenia percepcyjne po

    przywróceniu sygnałowi postaci analogowej.

    Przykład

    [Klikając na ikonę PCM64 możesz posłuchać sygnału mowy próbkowanego z

    częstotliwością 8 kHz i kwantowanego z użyciem 256 poziomów kwantyzacji]

    Ponieważ do zapisania w postaci binarnej każdego z 256 poziomów wystarczy 8 bitów

    ( )25628 . Zatem przepływność binarna sygnału mowy wynosi 64 kbit/s (8 kHz . 8 bitów).

    Wielokrotności tej przepływności, jak również jej wybrane podwielokrotności są typowymi

    przepływnościami stosowanymi, nie tylko do transmisji sygnału mowy. Na przykład typowe

  • przepływności binarne w systemach dostępu do sieci Internet wynoszą 128 kbit/s, 256 kbit/,

    512 kbit/s itd., a więc odpowiednio 2, 4, 8 razy przepływność 64 kbit/s.

    Kodowanie sygnału mowy Techniki kodowania sygnału mowy w celu jego kompresji rozwijały się przez wiele lat ze

    względu na niewystarczające możliwości transmisyjne wielu systemów telekomunikacyjnych.

    Po raz pierwszy z problemem oszczędnego wykorzystywania dostępnych zasobów

    transmisyjnych stykamy się już w analogowych systemach telefonicznych wykorzystujących

    kable podmorskie. Przyjęto wtedy rozwiązanie oparte na wykrywaniu przerw w mówieniu

    (ciszy), ich usuwaniu w nadajniku i odtwarzaniu w odbiorniku, dzięki czemu uzyskano

    możliwość jednoczesnego przesyłania większej liczby rozmów. Rozwiązanie tp znalazło

    również zastosowanie w telefonii międzynarodowej, a w wersji cyfrowej, na przykład w

    systemach satelitarnych. Kodowanie kompresyjne to nie tylko zawężanie pasma sygnału czy

    eliminacja ciszy – to także techniki kodowania sygnału mowy, który wcześniej poddany

    został cyfryzacji, a więc techniki, które pozwalają zmniejszyć przepływność binarną sygnału.

    Wszystkie techniki kodowania kompresyjnego sygnału mowy– szerzej sygnałów odbieranych

    przez zmysł słuchu i wzroku – są technikami kodowania stratnego. Ich praktyczne

    wykorzystanie jest możliwe dzięki, tak zwanej redundancji sygnału mowy. Sygnał mowy

    zawiera informacje mało istotne, albo zupełnie nieistotnych z punktu widzenia słuchacza i

    celu kompresji, które można z niego usunąć. Wiemy już, że pasmo sygnału mowy można

    znacząco ograniczyć, usunąć z niego ciszę, kwantować, stosując 256 poziomów kwantyzacji,

    a mimo to akceptujemy jego jakość, gdy jest to sygnał telefoniczny. Na pewno jednak nie

    uznalibyśmy jego jakości za wystarczająco dobrą, gdyby był on nagrany na płytę CD.

    Opracowano wiele różnych metod kodowania kompresyjnego cyfrowego sygnału mowy z

    myślą o zastosowaniach telekomunikacyjnych. Ich praktyczne implementacje nazywane

    kodekami (koder i dekoder) mogą być zarówno hardwareowe, jak i softwareowe. Najprostsze

    kodeki to zwykłe przetworniki A/C, nazywane kodekami PCM (modulacja impulsowo-

    kodowa). Bardziej skomplikowane rozwiązanie to, tak zwana różnicowa modulacja kodowo-

    impulsowa DPCM. W koderach PCM każda bieżąca próbka jest kodowana niezależnie od

    wcześniejszych i późniejszych próbek sygnału. Tymczasem, nawet pobieżna obserwacja

    przebiegi czasowego mowy pozwala zauważyć w nim pewną powtarzalność. Nie powinno to

    nas dziwić, jeżeli uzmysłowimy sobie, że wypowiadane głoski mają pewien czas trwania

    (najczęściej rzędu kilkudziesięciu milisekund). Z dużym przybliżeniem można powiedzieć, że

    cechy sygnał w trakcie trwania głoski, a przynajmniej w jej stacjonarnej części, niewiele się

    zmieniają. Jeżeli sygnał jest próbkowany z częstotliwością 8 kHz, to w czasie, np. 50 ms

    mamy 400 jego próbek. To, że przez cały czas trwania głoski słyszymy i rozpoznajemy ja

    jako tę właśnie głoskę oznacza, że próbki mowy są ze sobą skorelowane (zależne jedna od

    drugiej). Dotyczy to nie tylko głosek dźwięcznych, gdzie powtarzalność przebiegu jest

    spowodowana okresowością drgań strun głosowych i zauważalna w ich przebiegu czasowym,

    ale również głosek bezdźwięcznych, których przebiegi nie wykazują wizualnie

    powtarzalności. Korelacja pomiędzy próbkami pozwala w przybliżeniu określić amplitudę

    bieżącej próbki na podstawie pewnej liczby próbek wcześniejszych albo próbek

    następujących po próbce bieżącej. Schemat kodera i dekodera DPCM jest pokazany na rys.

    2.5..

  • Rys. 2.5. Schemat blokowy kodera DPCM.

    Amplituda x(n) każdej bieżącej (wejściowej) próbki sygnału mowy jest porównywana z

    amplitudą )(~

    nx dla niej przewidywaną, w bloku, tak zwanego predyktora. W kwantyzatorze

    jest kwantowany nie sygnał wejściowy, ale błąd predykcji r(n) definiowany następująco:

    )()()(~

    nxnxnr

    Błąd predykcji ma z reguły dużo mniejszą amplitudę niż sam sygnał, a zatem może być

    kodowany za pomocą mniejszej liczby bitów. Na wejście predyktora podawany jest sygnał

    błędu predykcji oraz przewidywana próbka sygnału mowy

    Rozszerzenie modulacji DPCM o techniki adaptacji skoku kwantyzacji, o których

    mówiliśmy wcześniej prowadzi do kodowania ADPCM. Typowe przepływności binarne

    kodera ADPCM to 16-32 kbit/s.

    Rys. 2.6. Schemat blokowy kodera ADPCM.

  • W telefonii GSM oraz technice VoIP dominują obecnie kodery CELP (Code Excited

    Linear Prediction). Koder CELP łączy dwie efektywne techniki kompresji: kwantowanie

    wektorowe i liniową predykcję. Sygnał mowy na wyjściu dekodera (x*) powstaje przez

    filtrację wektorów sygnału pobudzenia jc , pomnożonych przez odpowiedni współczynnik

    wzmocnienia Gc. Wektory te, w koderach GSM, składają się z 40 próbek sygnału. Jako sygnał

    pobudzenia stosuje się również sygnał opóźniony, co pozwala na odtworzenie sygnałów

    mowy dźwięcznej, o charakterze zbliżonym do okresowego.

    Rys.2.7 Koder CELP (jeżeli pominie się sumator po prawej stronie, otrzyma się dekoder

    CELP).

    Otrzymany w ten sposób wektor jci

    p cGG * filtruje się z wykorzystaniem filtru

    predykcyjnego H. Filtr ten adaptuje się do kodowanego sygnału x, nadając sygnałowi x*,

    który powstaje na wyjściu odbiornika, odpowiedni kształt widmowy. Typowe przepływności

    binarne kodera CELP zawierają się między 4kbit/s a 16 kbit/s.

    Niższe przepływności binarne wymagają zastosowania kodera parametrycznego, tzw.

    wokodera. W tego typu urządzeniu nie dąży się do dokładnego odtworzenia fali akustycznej,

    a jedynie do wygenerowania sygnału o widmie zbliżonym do widma sygnału mowy.

    Rys.2.8 Uproszczony schemat syntezy mowy w wokoderze - d=1: mowa dźwięczna, d=0:

    mowa bezdźwięczna, T0 - okres tonu krtaniowego (okres drgań strun głosowych)

    Sygnałami pobudzającymi zmienny w czasie filtr H (podobny do filtru stosowanego w

    koderze CELP) są impulsy symulujące działanie krtani oraz szum wykorzystywany do

    generowania mowy bezdźwięcznej. Do przeprowadzenia syntezy mowy wystarcza

    aktualizacja parametrów filtru (dzięki temu możemy generować różne głoski), informacja o

    dźwięczności mowy, oraz (dla mowy dźwięcznej) okres tonu krtaniowego. Przesyłanie tych

    parametrów wymaga szybkości transmisji od kilkuset do około 2500 bit/s.

  • 2.4. Kodowanie sygnałów audio

    Kodery szerokopasmowych sygnałów fonicznych najczęściej operują w dziedzinie

    częstotliwości. Podział skali częstotliwości na podpasma pozwala na wykorzystanie innego

    kwantyzatora w każdym z podpasm. Każdy z tych kwantyzatorów adaptuje się do amplitudy

    przetwarzanego sygnału pasmowego (amplitudy mogą się bardzo różnić) i może pracować z

    różną rozdzielczością (różna liczba bitów na kwantowanie próbki sygnału). Pozwala to na

    zmniejszenie błędu kwantyzacji (postrzeganego jako szum) i na „ukrycie” (zamaskowanie)

    widma szumu kwantyzacji widmem sygnału audio. Redukcja objętości sygnału jest możliwa

    właśnie dlatego, że słuch człowieka nie jest doskonały. Najogólniej można powiedzieć, że

    człowiek nie słyszy pewnych dźwięków w obecności innych. Jest to tak zwany efekt

    maskowania (będzie o tym mowa w dalszej części tekstu). Niesłyszalne są dźwięki słabe

    występujące w sąsiedztwie dźwięków mocnych o zbliżonych częstotliwościach – maskowanie

    w dziedzinie częstotliwości. Czasami niesłyszalne są również dźwięki o różniących się

    znacznie częstotliwościach, jeżeli dźwięk o małym natężeniu występuje bezpośrednio przed

    (maskowanie wstecz) albo po (maskowanie wprzód) dźwięku o dużym natężeniu.

    Wrażliwość na dźwięki zależy również od ich częstotliwości i natężenia. Dźwięki o zbyt

    małym natężeniu nie są w ogóle słyszalne.

    Ogólny schemat typowego kodera i dekodera sygnału audio pokazano na rys.2.9.

    Rys.2.9. Schemat kodera i dekodera sygnału audio

    Za pomocą transformaty (najczęściej wykorzystywana jest dyskretna transformata

    cosinusoidalna DCT) lub zestawu filtrów pasmowych otrzymuje się sygnały pasmowe, z

    których każdy kwantowany jest z wykorzystaniem innego kwantyzatora. Rozdziału bitów

    pomiędzy kwantyzatory dokonuje się tak, aby zmniejszyć moc błędu kwantowania całego

    sygnału lub tak, aby zamaskować szum kwantyzacji (analiza psychoakustyczna).

    Rys.2.10. Zmniejszenie mocy szumu kwantyzacji po zastosowaniu odrębnych kwantyzatorów

    w podpasmach częstotliwości

  • Pojedynczy kwantyzator, jeśli jest dobrze dopasowany do sygnału, generuje błąd kwantyzacji

    na poziomie około 6b decybeli niższym od mocy kwantowanego sygnału (b – liczba bitów na

    skwantowanie jednej próbki). Szum kwantyzacji jest sygnałem nieskorelowanym i ma dość

    płaskie widmo, w związku z tym nie jest dobrze zamaskowany widmem sygnału audio

    (rys.2.10 po lewej). Podział skali częstotliwości na podpasma pozwala na dokonanie adaptacji

    zakresu pracy kwantyzatorów do różnych amplitud sygnałów podpasmowych (rys.2.10 w

    środku). Dalsze obniżenie szumu kwantyzacji jest możliwe dzięki nierównomiernemu

    rozdziałowi bitów pomiędzy kwantyzatory (rys.2.10 po prawej).

    Uwzględnienie zjawiska maskowania szumu kwantyzacji przez sygnał audio wymaga

    obliczenia tzw. krzywej maskowania (lub progu maskowania), który jest funkcją

    częstotliwości i wskazuje największą moc zakłócenia, które jest jeszcze niesłyszalne w

    obecności sygnału audio (będzie o tym mowa w dalszej części tekstu). Bity rozdziela się w

    taki sposób, aby widmo szumu kwantowania znalazło się pod krzywą maskowania.

    Koder MP3 Koder MP3 koduje sygnał zapisany w formacie wave (pliki .wav), w taki sposób by

    znacząco zredukować rozmiar pliku zajmowanego przez sygnał, nie powodując istotnej utraty

    jakości sygnału. W formacie wave sygnał jest próbkowany z częstotliwością 44,1 kHz , każda

    jego próbka reprezentowana za pomocą sekwencji 16 bitowej, a więc plik z jednosekudowym

    sygnałem stereofonicznym plik zajmuje aż 1,4112 Mbit. Koder MP3 wykorzystuje analizę

    psychoakustyczną (Rys.2.11). Dzieli sygnał na interwały czasowe, a ponadto pasmo

    zajmowane przez sygnał dzieli na 32 podpasma, które w kolejnym etapie są dzielone, z

    wykorzystaniem zmodyfikowanej transformaty kosinusoidalnej (MDCT), na 18 części, co w

    sumie daje 576 wąskich podpasm. W każdym interwale eliminuje dźwięki o bardzo dużych i

    bardzo małych częstotliwościach. Ponadto eliminuje dźwięki maskowane (niesłyszalne, albo

    słabo słyszalne). W niektórych segmentach sygnału audio kodowana jest tylko niewielka

    część podpasm (Rys.2.12). Dodatkowo dla sygnałów stereofonicznych koduje się ich różnicę

    i sumę, a nie każdy kanał osobno. Dzięki temu uzyskuje się przeciętnie 10-12 krotne

    zmniejszenie objętości pliku w stosunku do pliku wave.

    Rys.2.11 Schemat kodera MPEG1 Audio, layer3 (MP3)

    Filtry Subpasmowe

    Model Psychoakustyczny

    MDCT

    FFT

    Zewnętrzna Pętla Kontroli Zniekształceń

    Wewnętrzna Pętla Sterowania Prędkością

    Kodowanie Huffmana

    Informacje Dodatkowe

    Formatowanie strumienia

    Pętla Powtórzeń

    Sygnał Audio (PCM)

    Przełączanie Okna

    32 pasma

    Zakodowany Sygnał Audio

    576Współ.

  • Rys.2.12. Widmo sygnału audio krzywa maskowania i kwantowane podpasma [Toczko]

    Przykład [Odsłuchaj dwa pliki dźwiękowe klikając na ikony Wave (standard wave) i MP3 (koder

    MP3). Porównaj jakość. Czy zauważasz różnicę?]

    2.5. Kodowanie obrazów

    Kodowanie obrazów nieruchomych Najpopularniejszym standardem kompresji obrazów nieruchomych (np. zdjęć

    fotograficznych, rysunków, obrazów graficznych) jest standard JPEG. Jego nazwa pochodzi

    od akronimu nazwy międzynarodowego zespołu ekspertów (Joint Photographics Experts

    Group) powołanego przez kilka organizacji międzynarodowych. Wynikiem prac zespołu jest

    opublikowany w 1991 roku standard JPEG.

    Standard JPEG wyróżnia dwa tryby kodowania: bezstratny i stratny. Tryb bezstratny polega

    na kodowaniu predykcyjnym DPCM oraz wykorzystywaniu kodu Huffmana albo kodu

    arytmetycznego. W trybie bezstratnym uzyskuje się średnio stopień kompresji 2. Tryb stratny

    pozwala osiągnąć dużo wyższy średni stopień kompresji 10÷20. Opiera się on na

    wykorzystaniu dyskretnej transformaty kosinusowej DCT, zróżnicowanym kodowaniu jej

    współczynników, a następnie, tak jak w trybie bezstratnym, użyciu jednej z metod kodowania

    bezstratnego.

    Obraz źródłowy to zbiór, tak zwanych pikseli równomiernie rozmieszczonych w przestrzeni

    dwuwymiarowej Piksel to najmniejszy element cząstkowy obrazu. Każdy piksel jest

    określany za pomocą zestawu komponentów. Mogą to być różne komponenty. Najczęściej

    stosuje się dwa następujące zestawy komponentów:

    zestaw kolorów podstawowych RGB (czerwony-Red, zielony-Green i niebieski-Blue);

    Jasność, barwa i nasycenie (luminancja i chrominancja). W koderze JPEG obraz źródłowy jest dzielony na bloki o wymiarze 8x8 pikseli, które

    podlegają kodowaniu kompresyjnemu. Dla każdego bloku i każdego komponentu osobno jest

    obliczana 64 punktowa transformata DCT. W wyniku wykonanych obliczeń dla każdego

  • bloku i każdego komponentu otrzymujemy 64 współczynniki transformaty (liczby

    rzeczywiste). Współczynniki DCT są następnie kwantowane. Najczęściej po kwantowaniu

    wiele współczynników ma wartość zerową, dzięki czemu stosując jedną z metod kodowania

    bezstratnego uzyskuje się duży stopień kompresji.

    W koderze JPEG obraz źródłowy jest dzielony na bloki o wymiarze 8x8 pikseli, które

    podlegają kodowaniu kompresyjnemu. Dla każdego bloku i każdego komponentu osobno jest

    obliczana 64 punktowa transformata DCT. W wyniku wykonanych obliczeń dla każdego

    bloku i każdego komponentu otrzymujemy 64 współczynniki transformaty (liczby

    rzeczywiste). Współczynniki DCT są następnie kwantowane. Najczęściej po kwantowaniu

    wiele współczynników ma wartość zerową, dzięki czemu stosując jedną z metod kodowania

    bezstratnego uzyskuje się duży stopień kompresji.

    Przykład [Obejrzyj trzy kolejne obrazy klikając na ikony o nazwach JPEG512, JEPG64 i JPEG32

    Pierwszy plik ma rozmiar 5 Mbit, drugi 64 kbit i trzeci 32 kbit. Wyciągnij wnioski]

    JPEG512

    JPEG512

    JPEG512

    Kodowanie obrazów ruchomych Kompresja obrazów ruchomych opiera się na:

    Zmniejszeniu rozdzielczości obrazu: format CIF (4:1), format QCIF (16:1).

    Zmniejszeniu częstotliwości próbkowania;

    Zmniejszeniu liczby poziomów kwantyzacji;

    Zmniejszenie częstotliwości ramkowania (zmniejszenie liczby klatek w czasie);

    Kompresji obrazu w ramce;

    Redukcji informacji z ramki na ramkę;

    Estymacji ruchu. Jedną z najczęściej stosowanych metod kompresji obrazów ruchomych jest metoda opisana w

    standardzie MPEG. Podobnie, jak w przypadku standardu JPEG nazwa standardu wywodzi

    się od akronimu nazwy grupy ekspertów (Moving Picture Experts Group) powołanych do

    opracowania standardu kompresji obrazów ruchomych. Owocem pracy tej grupy był standard

    MPEG-1, opracowany już w 1990 roku, a następnie standardy MPEG-2 (1991), MPEG-4

    (1998) i MPEG-7 (2006).

    Strumień danych MPEG można podzielić na dwie grupy;

    Grupa danych systemowych zawierająca informacje o synchronizacji czasu w celu odpowiedniego ich połączenia w procesie dekodowania.

    Dane skompresowanego obrazu i dźwięku. Sekwencja wideo składa się z nagłówka, grupy obrazów i znacznika końca sekwencji wideo.

    Każdy obraz to trzy macierze opisujące składowe luminancji i chrominancji. W procesie

    kodowania obraz dzieli się na plastry zawierające kolejne makrobloki ułożone z lewej strony

    na prawą i z góry na dół. Makroblok to macierz 16x16 współczynników luminancji i macierze

    8x8 współczynników chrominancji. W przypadku sekwencji wideo kolejne obrazy najczęściej

    niewiele się między sobą różnią. Zatem nie ma potrzeby pełnego kodowania każdej klatki

    (obrazu). Różnice pomiędzy obrazami dotyczą zwykle występujących na nich obiektach

    ruchomych. Chcąc zminimalizować ilość informacji należy wyznaczyć kierunek ruchu

    obiektów w obrazie, skompensować ten ruch, a następnie zakodować różnicę między

    obrazami punkt po punkcie. Wyznaczanie ruchu obiektów jest dokonywane na bazie

    makrobloków. Dla każdego makrobloku w obrazie aktualnym jest poszukiwany najbardziej

    podobny do niego makroblok w obrazie poprzednim. Informacja o kierunku ruchu

    makrobloku (wektor ruchu) jest przesyłana do dekodera. W koderze makrobloki koduje się

  • korzystają z metod predykcyjnych. Jeżeli kierunek ruchu jest poprawnie określony to

    kodowanie błedu predykcji wymaga mniejszej liczby bitów niż kodowanie oryginalnego

    obrazu. Wyróżnia się trzy typy obrazów:

    Obrazy wewnętrzne (I) zakodowane z wykorzystaniem informacji zawartych tylko w nich

    samych;

    Obrazy prognozowane (P), zakodowane z wykorzystaniem informacji o najbliższym

    poprzednim obrazie I albo P. Jest to, tak zwane przewidywanie wprzód. Obrazy

    dwukierunkowo prognozowane (B), to znaczy takie, których kodowanie wykorzystuje

    obrazy będące zarówno poprzedzające jak i następujące po obrazie B . Obrazów B nie

    używa się nigdy jako obrazy odniesienia. Takie dwukierunkowe przewidywanie

    umożliwia bardzo wydajną kompresję bez powielania (propagacji) błędów, które może

    mieć miejsce w przypadku wykorzystywania obrazów P. Obrazy B odtwarza się

    poprzez interpolację danych z dwóch sąsiednich obrazów typu I lub P (jednego

    poprzedzającego i jednego następującego).

    Średni stopień kompresji w standardach MPEG wynosi od kilkudziesięciu do stu (?) razy.

    Oprócz kodeków MPEG stosowane są inne standardy, np. H.263.

    Przykład [Klikając kolejno na ikony o nazwach Klip, Klip 128 i Klip 32 obejrzyj ten sam wideo klip, ale

    najpierw w wersji oryginalnej, następnie po kodowaniu koderem MPEG-4 z przepływnością

    128 kbit/s i 32 kbit/s. Wyciągnij wnioski]

    3. Subiektywne metody badania jakości

    W tej części pracy omówiono metody subiektywne badania jakości mowy, sygnałów

    audio i obrazów ruchomych. Należy podkreślić, że metody subiektywne, angażujące grupę

    odbiorców, są podstawowym narzędziem służącym do kalibracji pozostałych metod oceny

    jakości. Są one jednocześnie najbardziej kłopotliwe w stosowaniu, gdyż wymagają

    zorganizowania sformalizowanych i czasochłonnych badań eksperymentalnych .

    3.1. Subiektywne metody badania jakości mowy

    3.1.1. Kategoryzacja

    Subiektywne metody badania jakości mowy sprowadzają się do bezpośredniego

    wykorzystania w eksperymencie osób, których zadaniem jest - na podstawie wrażeń

    słuchowych. określenie cech mowy pozwalających bezpośrednio lub pośrednio oszacować jej

    jakość. Na rys. 3.1 pokazano schematycznie strukturę, w jakiej przeprowadza się testy

    subiektywne.

    Rys. 3.1. : Struktura, w której przeprowadza się testy subiektywne

    Osoby biorące udział w ocenie jakości mowy mają za zadanie ocenić mowę w ramach

    przyjętej kategorii. W testach subiektywnych używanych jest kilka typów kategorii. I tak da

    się wyróżnić następujące kategorie: bezwzględną, porównawczą i degradacyjną. W każdym

    przypadku osoba oceniająca jakość mowy przypisuje jej ocenę według przyjętej skali

  • punktowej. Oceny następnie uśrednia się, otrzymując wartość MOS – Mean Opinion Score.

    W tabeli 2 przedstawiono skale punktowe dla wyżej wymienionych kategorii.

    Tabela 2: Skala punktacji dla poszczególnych typów kategoryzacji

    Punktacja Kategoryzacja

    Bezwzględna Porównawcza Degradacyjna

    5

    4

    3

    2

    1

    0

    -1

    -2

    -3

    Jakość Porównanie jakości Pogorszenie jakości

    Doskonała

    Dobra

    Zadowalająca

    Słaba

    Zła

    -

    -

    -

    -

    -

    -

    Dużo lepsza

    Lepsza

    Nieznacznie lepsza

    Jednakowa

    Nieznacznie gorsza

    Gorsza

    Dużo gorsza

    Niezauważalne

    Nie przeszkadzające

    Lekko przeszkadzające

    Przeszkadzające

    Bardzo przeszkadzające

    -

    -

    -

    -

    3.1.2. Testy konwersacyjne

    W tym teście, dwóch jego uczestników (osoby przypadkowe, nie związane z personelem

    technicznym laboratorium, ani pomiarami jakości mowy) znajduje się w odrębnych kabinach

    o ściśle określonych gabarytach, umieszczonych w laboratorium badawczym. Pomiędzy

    kabinami jest łączność telefoniczna. Parametry połączenia telefonicznego są modelowane.

    Zadaniem osób prowadzących rozmowę jest ocena jej jakości w skali 5-punktowej oraz

    udzielenie binarnej odpowiedzi na pytanie: czy występowały trudności w trakcie rozmowy?

    Dodatkowo mierzony jest poziom odbieranych sygnałów oraz czas trwania rozmowy. Na

    podstawie oceny rozmówców określa się wartość MOS.

    3.1.3. Testy odsłuchowe

    Testy odsłuchowe nie uwzględniają wszystkich czynników występujących w trakcie

    korzystania z łączności telefonicznej. Niemniej są one wygodne na przykład w fazie

    opracowywania nowego systemu lub kodera mowy. Sygnał mowy jest wcześniej rejestrowany

    w pamięci komputera, a w czasie testu odczytywany i przesyłany przez badany system.

    Lektorzy biorący udział w przygotowaniu nagrań muszą spełniać odpowiednie wymagania. W

    teście odsłuchowym mowa podlega ocenia według skali bezwzględnej przez grupę słuchaczy.

    Do najważniejszych subiektywnych metod oceny jakości transmisji mowy obecnie zalicza

    się te metody, które dają ocenę bezpośrednią MOS w pięciostopniowej skali jakości. Są to

    następujące metody:

    ACR – Absolute Category Rating, DCR – Degradation Category Rating Ocenę jakości można uzyskać też pośrednio, poprzez

    pomiary wyrazistości i zrozumiałości:

    metoda DRT – Diagnostic Rhyme Test,

    metoda MRT – Modified Rhyme Test. Integralną częścią metody – niezależnie od sposobu dojścia do oceny MOS – winna być

    miara odniesienia pozwalająca na porównanie i uśrednienie wyników MOS uzyskanych

    różnymi sposobami, w różnych ośrodkach i dla różnych języków.

  • Metoda ACR, polegająca na bezpośrednim określeniu jakości mowy w pięciostopniowej

    skali ocen jest obecnie najczęściej stosowana, gdyż pozwala na stosunkowo szybki i tani (jak

    na metody subiektywne) pomiar. Umożliwia to przeprowadzenie badań dla wielu obiektów z

    różnymi wartościami parametrów wpływających na jakość transmisji lub kodowania.

    Dodatkowo metoda ACR jest unormowana w zaleceniach ITU-T P.800 [P.800]. Wadą

    metody jest brak precyzji w zdefiniowaniu zadania dla grupy odsłuchowej i naturalna

    niezdolność słuchaczy do stabilnej i powtarzalnej oceny w skali punktowej takiej cechy, jak

    „jakość transmisji mowy”. Jest tu więc konieczne wykonanie pomiaru dla licznej ekipy

    słuchaczy (większej od 12), kilku głosów po stronie nadawczej, staranne przeszkolenie i

    trenowanie słuchaczy. W tej metodzie wykorzystywane są listy testowe złożone z prostych,

    krótkich, nie związanych z sobą semantycznie zdań. Lista podzielona jest na grupy złożone z

    pięciu zdań. Zdania nie powinny być zbyt krótkie, jak również zbyt długie; powinny trwać 2-

    3 s. Słuchacze, po wysłuchaniu grupy zdań podają swoja opinię w pięciostopniowej skali

    jakości odsłuchu, wysiłku słuchowego lub preferowanej głośności. Ocena 5 odpowiada

    bardzo dobrej jakości, natomiast 1 – niedostatecznej. Ocena średnia (MOS) obliczana jest dla

    każdego badanego warunku transmisji mowy oraz dla każdej skali ocen, jako wynik

    uśrednienia po słuchaczach i mówcach.

    Metoda DCR, także unormowana zaleceniami ITU-T P.800 [P.800], jest alternatywnym

    rozwiązaniem dla metody ACR. Pomiar polega na porównaniu wzorcowego sygnału mowy o

    wysokiej jakości z sygnałem przesłanym przez badany kanał telekomunikacyjny. Sygnał

    wzorcowy prezentowany jest zawsze jako pierwszy. Słuchacze określają stopień pogorszenia

    jakości sygnału badanego w stosunku do sygnału wzorcowego w pięciostopniowej skali ocen.

    Pomiar wykonywany jest dla licznej ekipy słuchaczy i kilku mówców (podobnie jak w

    metodzie ACR). Ocena średnia (DMOS) obliczana jest dla każdego badanego warunku

    transmisji mowy oraz dla każdej skali ocen, jako wynik uśrednienia po słuchaczach i

    mówcach.

    W metodach opartych o testy DRT/MRT materiałem testowym jest zbiór słów

    jednosylabowych różniących się najczęściej między sobą początkową lub końcową głoską.

    Miarą oceny jakości mowy jest – podobnie jak w metodach wyrazistościowych – stosunek

    poprawnie odebranych jednostek do liczby jednostek nadanych . Zbiór jednostek testowych

    jest najczęściej ograniczony i nieliczny (np. 6 jednostek), natomiast dla danego pomiaru

    jednostki są prezentowane słuchaczom wielokrotnie w losowej kolejności. Głoski różnicujące

    zbiór testowy dobierane są z tej samej grupy artykulacyjnej (typowy jest tu zbiór głosek

    zwartych: p, d, t, d, k, g).

    Testy DRT/MRT różnią się od metod wyrazistościowych liczebnością zbioru testowego,

    brakiem zrównoważenia fonematycznego i strukturalnego materiału testowego oraz

    możliwością (wykluczoną w metodach wyrazistościowych) wielokrotnego powtarzania tej

    samej jednostki.

    3.1.4. Badanie wyrazistości

    Jedną z częściej używanych w Polsce subiektywnych metod oceny jakości mowy jest

    badanie wyrazistości. Metoda ta nie daje pełnej informacji o jakości a jedynie uwzględnia

    aspekt rozumienia wypowiadanych jednostek akustycznych takich jak: logatomy, sylaby,

    wyrazy czy zdania. Najczęściej badania te dotyczą wyrazistości logatomowej. Logatomy to

    nic nie znaczące w danym języku wyrazy (jedno-, dwu- lub trzysylabowe). Rozpoznanie

    logatomu jest zatem wyłącznie wynikiem usłyszenia wszystkich wchodzących w jego skład

    fonemów, a nie skojarzenia ze znanym wyrazem lub analizy kontekstowej. Pomijając kwestie

    proceduralne można powiedzieć, że badanie wyrazistości logatomowej polega na określeniu

    procentowym stosunku poprawnie rozpoznanych przez N słuchaczy logatomów z L do

    całkowitej liczby logatomów odczytanych.

    N

    n

    L

    l

    lnWNLW1 1

    ,

    1)(

    (1)

  • W podanym wzorze Wn,l oznacza liczbę poprawnie rozpoznanych logatomów przez n-

    tego słuchacza z l-tej listy w stosunku do liczby logatomów odczytanych z tej listy.

    Szczegółowy opis metody podaje polska norma [PN-90].

    3.2. Subiektywne metody badania jakości obrazów ruchomych

    W wyniku kompresji i rekonstrukcji, a także wskutek utraty transmitowanych pakietów,

    obraz ruchomy ulega zniekształceniu i nakładają się na niego zakłócenia. Te niekorzystne

    zjawiska zależą od rodzaju kodeka, przepływności binarnej (stopnia kompresji), samego

    obrazu, stopy utraconych pakietów. Najczęściej występują następujące zniekształcenia i

    zakłócenia:

    efekty blokowe, wynikające z zastosowania kompresji w blokach, np. 8x8 pikseli – obserwator zauważa granice bloków

    „przytrzymanie” obrazu, wskutek podstawienia ostatniej poprawnie zdekodowanej ramki za szereg niepoprawnie zdekodowanych ramek (występuje przy dużych zakłóceniach w

    kanale transmisyjnym i zbyt niskiej przepływności kanału)

    chwilowy zanik obrazu lub jego części, często połączony z pojawieniem się na ekranie kolorowej tekstury – występuje przy b. dużych zakłóceniach

    nieciągłość ruchu, związana z nazbyt wielką kompresją obrazu zniekształcenia konturów (nieostrość, załamania, poruszanie się, a także wystąpienie

    „fałszywych konturów”) – wynik kompresji

    błędy w odtworzeniu kolorów (zmiana odcieni, nasycenie) błędy kwantyzacji (szum typu „sól i pieprz” lub „śnieżenie”)

    Wymienione czynniki charakteryzują się różną dokuczliwością dla odbiorcy. Ich wpływ

    na percepcję obrazu można stwierdzić przeprowadzając subiektywne badania jakości. Ich

    metodyka nie odbiega od odpowiednich badań dla mowy: stosuje się skalę MOS (najczęściej

    od 1 do 5, choć proponuje się również skale 1-10 i 0-100). Odpowiednie normy określają

    warunki przeprowadzania testów:

    Podobnie jak w pomiarach jakości dźwięku, stosuje się tu metody ACR i DCR [P.910]. W

    metodzie DCR porównuje się w niej sekwencje obrazów parami. Podczas sesji, której czas

    jest ograniczony do pół godziny, osoby oceniające (obserwatorzy) oglądają serie sekwencji w

    przypadkowej kolejności, parami (sekwencja bez zniekształceń a po niej sekwencja

    zniekształcona). Tło na ekranie powinno być w trakcie wyświetlania sekwencji jednolite i

    niezmienne. Osoba oceniająca po obejrzeniu drugiej sekwencji z pary ocenia pogorszenie jej

    jakości – degradację jakości, w stosunku do sekwencji odniesienia. (Tabela 2).

    Ponieważ oceny mogą się różnić, nawet u tego samego obserwatora, wskazane jest by

    sekwencja obrazów badanych oceniana była wielokrotnie, w tych samych warunkach. Dzięki

    temu można określić rozrzut wyników oceny pogorszenia jakości.

    Na scenariusz testu są nakładane ograniczenia czasowe. Zobrazowano je graficznie na rys.

    3.2. Jak wspomniano wcześniej najpierw jest pokazywana sekwencja odniesienia. Po

    dwusekundowej przerwie pokazywana jest sekwencja badana. Między sekwencjami, na całym

    ekranie powinien być wyświetlany jednolity obraz w kolorze szarym. Czas trwania każdej z

    sekwencji powinien wynosić w przybliżeniu 10 sekund. Po wyświetleniu dwóch

    porównywanych par obserwator ma do 10 sekund czasu na wystawienie oceny.

    Czas oceny może być nieco skrócony albo wydłużony w zależności od prezentowanych

    sekwencji.

    Rys. 3.1: Przebieg oceny subiektywnej metodą DCR

  • W zaleceniu [P.910] przedstawiono metodę zmodyfikowaną DCR-SP. Modyfikacja

    polega na równoczesnym, synchronicznym wyświetlaniu na tym samym monitorze, w dwóch

    oknach par sekwencji (źródłowej i podlegającej ocenie). Tło powinno być szare, sekwencja

    odniesienia powinna być zawsze wyświetlana po tej samej stronie ekranu. Zalecane jest

    również powtarzanie tych samych sekwencji kilkakrotnie. Na rysunku 3.3 zilustrowano

    graficznie przebieg oceny jakości za pomocą zmodyfikowanej metody DCR.

    Rys. 3.2: Przebieg oceny subiektywnej zmodyfikowaną metodą DCR

    Główną zaleta metody zmodyfikowanej jest skrócenie czasu trwania badań. Ma ona

    jednak wady, do których zaliczyć trzeba przede wszystkim trudności w zachowaniu

    koncentracji przez obserwatorów podczas całego testu, trudność w „wychwyceniu”

    niewielkich różnic między obrazami, a także konieczność starannej synchronizacji prezentacji

    obu sekwencji tworzących parę.

    Rys.3.4 Przykładowe wyniki subiektywnych pomiarów jakości wideo przeprowadzone w

    Inst, Telekomunikacji PW [Thanh]

    4. Parametryczne metody badania jakości

    O jakości transmitowanej mowy decyduje wiele czynników wprowadzanych w procesie

    transmisji. Do niedawna istotne były jedynie tłumienie i zniekształcenie widma

    częstotliwościowego w kanale transmisyjnym. Ocenie wpływu w.w. czynników na jakość

    mowy służą modele: Transmission Rating (amerykański), Information Index (francuski), czy

    japoński o nazwie OPINE)

    Obecnie, gdy pojawiły się nowe systemy telefoniczne i systemy transmisyjne takie jak np.

    analogowa lub cyfrowa telefonia komórkowa oraz możliwości zarządzania jakością konieczne

    staje się udostępnienie operatorowi i projektantowi sieci telefonicznej nowych metod oceny

    jakości mowy w łańcuchu telefonicznym. Opracowany w tym celu E-model, opisany w

    Zaleceniu G.107 służy zarządzaniu jakością rozmów telefonicznych [G.107], a jego wariant

    opisany w Zaleceniu G.113 – jakością transmisji sygnałów audio o poszerzonym paśmie. E-

    model został zmodyfikowany w zaleceniach ETSI [ETS101], [ETS102].

    E-model należy do metod parametrycznych, w których tworzony jest matematyczny

    model uwzględniający wszystkie elementy wchodzące w skład testowanej sieci lub systemu.

    Na jego podstawie obliczany jest parametr łączny. Dla szeregu wartości tego parametru

    określana jest metodą subiektywną jakość mowy. Otrzymana w ten sposób krzywa

    odwzorowania jest wykorzystywana do określenia, w następnych testach, jakości mowy

    wyłącznie na podstawie parametru łącznego.

    Wpływ strat pakietów na ocenę jakości wideo w

    skali MOS dla wszystkich sekwencji

    0

    1

    2

    3

    4

    5

    0,01 0,1 1

    Straty pakietów [%]

    Skala

    MO

    S Uśredniona ocena

    MOS

    Funkcja

    aproksymująca

    Wpływ bitowej stopy błędów na ocenę jakości wideo

    w skali MOS dla wszystkich sekwencji

    0

    1

    2

    3

    4

    5

    0,01 0,1 1

    Bitowa stopa błędów [%]

    Skala

    MO

    S

    Ocena MOS w skali

    uśrednionej bitowej

    stopy błędów

    Funkcja

    aproksymująca

  • W E-modelu wyznacza się parametr R będący łączną miarą jakości mowy. Może on być

    obliczony z następującej zależności:

    AIIIRR edso

    (1)

    gdzie: Ro reprezentuje podstawowy stosunek mocy sygnału do mocy szumu, zależny zarówno od poziomu sygnału jak i szumów,

    Is reprezentuje zniekształcenia pojawiające się równocześnie z sygnałem mowy takie jak szumy kwantyzacji PCM, czy sygnały wybierania tonowego,

    Id reprezentuje zniekształcenia wynikające z opóźnień wnoszonych w procesie przetwarzania i transmisji,

    Ie reprezentuje transmisyjne zniekształcenia wnoszone przez urządzenia takie jak niskoprzepływnościowe kodery, systemy DSI itp.,

    A jest składnikiem korekcyjnym zależnym od specyfiki dostępu do łącza. Nowymi elementami wprowadzonymi do E-modelu są parametry Ie oraz A. Parametr Ie

    jest bezpośrednio zależny od zniekształceń wnoszonych przez kodery łańcucha. Może on być

    wyrażony jako suma parametrów K poszczególnych N koderów wchodzących w jego skład:

    N

    n neKI

    1

    (2)

    Wartość parametru K wynosi 0 dla kodera PCM (G.711) 64 kbit/s, 7 dla ADPCM (G.726) 32 kbit/s, 20 dla LDCELP (G.728) 16 kbit/s i 15 dla ACELP (G.729) 8 kbit/s. Wartość

    składnika korekcyjnego A wynosi 0 dla tradycyjnej telefonii przewodowej, 5 dla DECT, 10

    dla GSM i 20 dla telefonii satelitarnej. .

    Współczynnik R może być obliczony na podstawie danych o systemach i sieciach. A

    zatem bez dokonywania pomiarów można określić jakość sygnału mowy, ponieważ związek

    pomiędzy parametrem R a subiektywną miarą jakość MOS jest określony (rys. 4.1)

    Rys.4.1.: Zależność MOS od parametru R

    W wielu ośrodkach n-b kontynuowane są prace mające na celu lepsze dopasowanie E-

    modelu do nowych sposobów świadczenia usług telefonicznych, przede wszystkim VoIP

    [Ding],[Carvalho]. Prowadzone są również badania mające na celu powiązanie parametru R z

    innymi miarami subiektywnymi. W pracy [Trz00] pokazany jest związek pomiędzy

    parametrem R a wyrazistością logatomową. Niestety model nie został dokładnie przebadany z

    punktu widzenia zastosowań do sieci pakietowych i sieci o zmiennym opóźnieniu.

    Model parametryczny został opracowany również dla wideotelefonii i opisany w

    Zaleceniu ITU-Y G.1070. W trakcie opracowania jest Zalecenie (pod roboczą nazwą

    G.OMVS) odnoszące się do IPTV. Pojawia się tu problem łącznej oceny jakości ruchomego

    obrazu i towarzyszącego mu dźwięku. Oceny cząstkowe dla dźwięku MOS-A i obrazu MOS-

    V są kojarzone w tzw. core model i przeliczane na ocenę łączną dla przekazu

    multimedialnego MOS-MM [Taka].

  • 5. Obiektywne metody badania jakości na poziomie mediów

    5.1. Sygnał mowy

    Cechą charakterystyczną obiektywnych metod oceny jakości mowy jest wyznaczanie

    odległości - według przyjętej miary - pomiędzy wybranym lub wybranymi parametrami

    sygnału mowy oryginalnej i sygnału przetworzonego (przesłanego), a następnie na podstawie

    krzywej odwzorowania, określenie oceny w mierze subiektywnej. Na rysunku 5.1 pokazano

    ogólny schemat metody obiektywnej badania jakości mowy na podstawie analizy parametrów

    sygnału.

    Rysunek 3.1: Schemat blokowy obiektywnej metody oceny jakości mowy opartej na analizie

    parametrów sygnałów

    Uwzględniony na rys.5.1 sygnał odniesienia występuje jedynie w metodach

    intruzyjnych i w postaci szczątkowej – w metodach z częściowym odniesieniem. W

    przypadku metod nieintruzyjnych jakość oceniana jest w oparciu o charakterystyczne

    zniekształcenia pojawiające się w transmisji, np. szumy i nieciągłości przebiegu czasowego

    (skutek przerw w transmisji).

    5.1.1. SNR w ujęciu globalnym i segmentowym

    Najprostszą miarą obiektywną jest SNR (ang. Signal to Noise Ratio), wyrażany

    najczęściej w dB. Mając dane próbki frazy oryginalnej }{ nx i przetworzonej }{*

    nx oblicza się

    różnicę (błąd kwantyzacji) }{ *nnn xxe , następnie moc sygnału oryginalnego i błędu w

    obrębie frazy liczącej M próbek.

    M

    nn

    eMe

    M

    nn

    xMx

    1

    212

    1

    212

    Następnie oblicza się SNR: 2

    2

    log10][ 10

    e

    xdBSNR

    Tak obliczona „globalna” wartość SNR jest bardzo wrażliwa na przesunięcie czasowe

    obu fraz (potrzebna jest synchronizacja), a także na zmianę poziomu (amplitudy). Poza tym

    na wartość tego wskaźnika głównie wpływają głośne fragmenty wypowiedzi, a ciche w

    znikomym stopniu. Z tego względu lepszym wskaźnikiem jest SNR w ujęciu segmentowym

    (Rys.5.2). Wartości SNR oblicza się w obrębie segmentów o czasie trwania krótkiej głoski

    (10-20 ms), a następnie uśrednia się te wartości.

  • Rys.5.2 SNR w ujęciu segmentowym (Ms – liczba segmentów)

    Segmentowy SNR niekiedy odbiega od ocen słuchaczy, gdyż nie uwzględnia zjawiska

    maskowania szumu kwantyzacji sygnałem mowy. Z tego względu ITU-T proponuje bardziej

    złożone algorytmy obiektywnej oceny jakości, uwzględniające zjawiska psychoakustyczne.

    5.1.2. Metody PSQM i PESQ

    W pierwszej połowie lat dziewięćdziesiątych ITU prowadziło intensywne prace

    zmierzające do opracowania obiektywnej metody badania jakości mowy kodowanej. Ich

    efektem było opracowanie kilku metod (PAMS, PARCEWAL, PSQM, PAQM, z których w

    wyniku weryfikacji wybrano metodę nazywaną PSQM (Perceptual Speech Quality Measure).

    Opisuje ją zalecenie P.861 [PSQM].

    Istota metody PSQM sprowadza się do określenia odległości pomiędzy rzeczywistym

    sygnałem mowy, a sygnałem otrzymanym w wyniku jej przetworzenia (głównie kodowania).

    Zanim to porównanie zostanie dokonane obydwa sygnały podlegają transformacji z postaci

    fizycznej na postać psychofizyczną – odzwierciedlającą przetwarzanie akustycznego sygnału

    mowy przez ucho człowieka. Na operację transformacji sygnału z postaci fizycznej na postać

    psychofizyczną składa się:

    odwzorowanie czasowo-częstotliwościowe;

    przeskalowanie częstotliwości;

    przeskalowanie poziomu natężenia. Pierwsza z operacji jest realizowana za pomocą ramkowania sygnału oknem Hanninga o

    czasie trwania 32 ms (N=256 próbek w przypadku częstotliwości próbkowania 8 kHz albo

    N=512 próbek przy częstotliwości próbkowania 16 kHz), a następnie obliczenia N-punktowej

    krótkookresowej dyskretnej transformaty Fouriera, i na jej podstawie obliczenia

    krótkookresowej mocy sygnału.

    Druga z operacji ma na celu zrealizowanie filtracji za pomocą tzw. filtrów barkowych.

    System słuchowy człowieka jest znany ze słabszej dyskryminacji w zakresie wysokich

    częstotliwości niż w zakresie częstotliwości niskich. To, wraz ze zjawiskiem maskowania w

    dziedzinie częstotliwości, doprowadziło do zamodelowania analizy dokonywanej przez ucho

    ludzkie za pomocą filtrów barkowych. Model ten wymaga przetwarzania sygnałów przez

    grupę takich filtrów, z odległościami częstotliwości środkowych i szerokościami pasm

    rosnącymi wraz z częstotliwością. Filtry te mogą być traktowane jako krzywe przestrajania

    nerwów słuchowych. Ich rozstawienie odpowiada półtoramilimetrowym odcinkom wzdłuż

    membrany podstawowej. Ciągłe widmo uzyskane w wyniku tej operacji zostało nazwane

    rozkładem pobudzeń, gdyż odpowiada ono rozkładowi bodźców w nerwach słuchowych.

  • Przeskalowanie poziomu natężenia w decybelach na poziom głośności wyrażany w

    fonach, a następnie jego wyrażenie w skali sonowej ma na celu uwzględnienie faktu, że

    subiektywne odczucie głośności nie zależy liniowo od poziomu natężenia sygnału (przejście

    ze skali decybelowej na fonową), oraz że subiektywne wrażenie zwiększenia głośności

    zmienia się nieliniowo wraz ze zmianą głośności (przejście ze skali fonowej na sonową)

    [Kula01]. Maskowanie jest uwzględniane w modelu w prosty sposób. Efekt maskowania jest

    brany pod uwagę tylko wówczas, gdy dwie składowe pojawiają się w tym samym czasie i

    mają zbliżone częstotliwości.

    Opisane pokrótce przekształcenie z wykorzystaniem modelu percepcyjnego obejmuje

    zarówno sygnał oryginalny jak i sygnał przetworzony, którego jakość ma być określona.

    Uproszczony algorytm metody PSQM przedstawiono na rys.5.3. Reprezentacje wewnętrzne

    obu sygnałów są porównywane, a obliczona odległość między nimi (tzw. wskaźnik PSQM)

    jest bezpośrednio związana z jakością testowanej mowy. Ostatnim krokiem w metodzie

    PSQM jest odwzorowanie skali obiektywnej na subiektywną. Nie jest to konieczne, jeżeli

    metoda jest stosowana np. do porównywania różnych typów koderów.

    Metoda PSQM, choć stosunkowo prosta realizacyjnie, wiąże się z szeregiem

    problemów obliczeniowych. Dotyczą one przede wszystkim obliczenia widma w skali

    barkowej. Próbki widma obliczone za pomocą dyskretnej transformaty Fouriera „nie trafiają”

    w próbki widma barkowego, co zmusza do stosowania interpolacji do określania ich wartości.

    Rys. 5.3: Uproszczony schemat algorytmu badania jakości mowy metodą PSQM

    Metoda PSQM ma symulować subiektywną percepcję mowy w warunkach

    rzeczywistych. W procesie przekształcania sygnału mowy na jego psychofizyczną

    reprezentację, która jest odpowiednikiem sygnału jaki dociera do mózgu, korzysta się z wielu

    charakterystyk i stałych odzwierciedlających sposób percepcji dźwięku przez człowieka.

    Transformacja dokonywana jest zarówno na sygnale wejściowym jak i wyjściowym z

    badanego kanału telekomunikacyjnego. Miarą jakości jest wówczas odpowiednio

    zdefiniowana odległość między psychofizycznymi reprezentacjami obydwu sygnałów zwana

    wskaźnikiem PSQM. Wartość PSQM można przetransformować na wartość MOS, która

    odpowiada subiektywnej ocenie, przy czym zależność między MOS i PSQM może być różna

    dla różnych języków. Stosując metodę PSQM należy więc uwzględnić specyfikę danego

    języka.

    Wadą metody PSQM jest słaba korelacja otrzymywanych wyników z subiektywnymi

    ocenami w przypadku telefonii internetowej. Przyczyną występowania takich rozbieżności są

    zaburzenia w dziedzinie czasu (bulk delays) występujące podczas transmisji sygnału mowy w

    sieciach pakietowych przeznaczonych pierwotnie do transmisji danych. Rozwiązaniem okazał

    się mariaż modułu synchronizacji czasowej zaczerpnięty z metody PAMS ze standardem

    PSQM. Nowo opracowaną metodę pomiaru znacznie udoskonalono i nazwano PESQ

    (Perceptual Evaluation of Speech Quality). W 2001 ITU-T zaaprobowało PESQ jako nowy

    standard P.862 [PESQ], który zastąpił wcześniej stosowaną metodę PSQM.

    Idea pomiaru PESQ opiera się podobnie jak w przypadku PSQM, na tzw. reprezentacji

    wewnętrznej będącej teoretyczną postacią sygnału mowy w umyśle człowieka. Sygnałem

    wzorcowym (oryginalnym) jest nagrany sygnał mowy naturalnej – najlepiej 2 frazy dla głosu

    męskiego i żeńskiego. Tak przygotowany sygnał oryginalny przesyłany jest badanym

  • kanałem telekomunikacyjnym tworząc na wyjściu systemu sygnał „zdegradowany”. Oba

    sygnały stanowią dalej podstawę oceny. W pierwszym etapie oceniane jest opóźnienie między

    próbkami i ewentualnie wprowadzana jest odpowiednia korekcja. Następnie oba sygnały

    zostają poddane szeregowi transformacji modelujących poszczególne etapy przetwarzania

    dźwięku w ludzkim układzie słuchowym, włączając w to przede wszystkim: specyficzną

    analizę w częstotliwości i nieliniowość przetwarzania intensywności dźwięku. Ewentualne

    przesunięcia próbek w czasie są uwzględniane w dalszych etapach obróbki sygnału. Na końcu

    zaimplementowano tak zwany model kognitywny, którego zadaniem jest wydanie ostatecznej

    oceny na podstawie porównania reprezentacji wewnętrznych obu sygnałów.

    5.1.3. Metoda POLQA

    Metoda POLQA (ang. Perceptual Objective Listening Quality Analysis) należy do metod

    nowej generacji i wykorzystuje zaawansowane algorytmy wykrywania zakłóceń [POLQA].

    Uwzględnia specyfikę współczesnych sieci telekomunikacyjnych (takich jak sieci IP i sieci

    komórkowych). Ostatecznym wynikiem jej działania jest ocena jakości mowy w skali MOS-LQO.

    Algorytm POLQA (standard ITU-T P.863) jest dostosowany do sygnałów

    wąskopasmowych (do 4kHz), szerokopasmowych (do 8 kHz) i super-szerokopasmowych (do

    16 kHz). Pozwala na ocenę transmisji mowy z wykorzystaniem koderów EVRC, a także w

    usłudze VoIP. Mimo iż zakres zastosowania jest znacznie większy dla POLQA niż dla PESQ,

    to błąd predykcji MOS jest znacznie mniejszy. Testy przeprowadzone przez ITU-T wskazują,

    iż wyniki metody POLQA dla sygnałów wąsko i szerokopasmowych są znacznie lepsze (mają

    większą korelację z wynikami subiektywnymi) od wyników algorytmu PESQ. W dalszej

    części tekstu zaprezentowane będą wyniki badań własnych przeprowadzonych w Politechnice

    Warszawskiej.

    5.1.4. Metoda 3SQM

    Jest to metoda nieintruzyjna, nie wymagająca znajomości sygnału oryginalnego,

    znormalizowana przez ITU-T (Zalecenie P.563 [3SQM]]). Jakość mowy jest oceniana na

    podstawie analizy typowych zniekształceń i zakłóceń: widm odbiegających od typowych

    widm mowy, obecności szumu, nieciągłości sygnału w czasie. Badania wykazują, że odbiorca

    koncentruje się na najbardziej dokuczliwym zniekształceniu i głównie to zniekształcenie

    wpływa na jego ocenę. Badania przeprowadzone w wielu ośrodkach wykazują dużą korelację

    wyników (MOS) metody 3SQM i metody PESQ.

    5.1.5. Testowanie algorytmów PESQ i POLQA

    Wśród ograniczeń algorytmu PESQ, w aneksie do Zalecenia P.862 [PESQ] i w

    Zaleceniu P.862.3 [PESQ1] wymienia się nieokreślone wyniki dla sygnałów z echem, nagrań

    zawierających mniej niż 75% sygnału mowy, sygnałów muzycznych, itp. Algorytm PESQ nie

    jest w stanie zastąpić testów konwersacyjnych, gdyż nie uwzględnia np. wpływu opóźnienia i

    echa. W Zaleceniu P.862.3 formułuje się szereg wskazówek co do sposobu przeprowadzenia

    badań jakości mowy. W szczególności:

    Zalecany czas trwania nagrania to 8-12 s, dopuszczalny 3,2 – 30 s, w żadnym wypadku nie powinien przekroczyć czasu trwania miliona próbek.

    Zawartość sygnału mowy w nagraniu powinna mieścić się w granicach 40%-80% (reszta to cisza międzywyrazowa i fragmenty ciszy na początku i na końcu nagrania),

    aktywny sygnał mowy winien trwać co najmniej 3,2 s.

    W testach powinno się uwzględniać wpływ mówcy, wskazane jest użycie nagrań mowy pochodzącej od 2 kobiet i 2 mężczyzn.

    Cisza poprzedzająca sygnał mowy i występująca na końcu nagrania powinna trwać od 0,5 s do 2 s.

    Czas trwania odcinków ciszy początkowej i końcowej nie powinien, dla obu porównywanych nagrań, różnić się o więcej niż 25%.

  • W Inst. Telekomunikacji PW przeprowadzono badania implementacji algorytmu PESQ

    oraz podjęto próbę weryfikacji jego przydatności do badania jakości mowy przesyłanej w

    sieci pakietowej w ramach usługi VoIP. Jej wynikiem jest sformułowanie dodatkowych

    zastrzeżeń i wskazanie na inne ograniczenia tej metody [KST10]. Najważniejsze ustalenia

    opublikowane w [KST10] przedstawiono poniżej.

    W przypadku stosowania w łączu telekomunikacyjnym urządzeń typu VAD (Voice

    Activity Detector) następuje zamiana cichych fragmentów nagrania ciągiem próbek o wartości

    zerowej lub szumem o niewielkiej mocy (comfort noise). Niekiedy następuje „wyciszenie”

    początków wyrazów lub skrócenie czasu ich wybrzmiewania. W eksperymencie

    wykorzystano 2 frazy testowe spełniające warunki określone w Zaleceniu P.862.3 (mowa

    męska i żeńska, czas trwania około 6 s, szum tła około 60 dB pod poziomem najgłośniejszych

    segmentów) [PESQ1]. Polegał on na zastępowaniu ciszy międzywyrazowej ciągami próbek o

    wartości zerowej (w krańcowym przypadku następowało „wyciszenie” początków i końców

    wyrazów graniczących z ciszą). Po zastąpieniu próbkami o wartości zerowej wyłącznie ciszy

    międzywyrazowej wartości MOS i MOS-LQO spadały do około 3,6, po niesłyszalnym dla

    słuchaczy (badania miały charakter nieformalny) uszkodzeniu początków i końców wyrazów

    graniczących z ciszą oba wskaźniki osiągały wartości około 2,5-2,2, a zauważalny

    (aczkolwiek niedokuczliwy) efekt występował dopiero przy wartościach MOS i MOS-LQO

    poniżej 2.

    Rys.5.4 Zastąpienie ciszy międzywyrazowej próbkami o wartości zerowej [Sadowska]

    Jest to przykład bardzo dużej rozbieżności między oceną słuchaczy a wynikami

    algorytmu PESQ. Należy zatem unikać sytuacji, gdy w systemie działa detektor cisza-mowa

    (VAD). Można też zaproponować modyfikację algorytmu, polegającą na zmniejszeniu

    wpływu segmentów cichych i segmentów usytuowanych na granicy cisza – mowa na wynik

    końcowy MOS. Dla porównania algorytm POLQA okazał się w mniejszym stopniu wrażliwy

    na tego rodzaju modyfikacje sygnału – otrzymywano wartości MOS-LQO w okolicach 3.6.

    W algorytmie PESQ jest stosowany precyzyjny system dwustopniowej synchronizacji,

    jednak omówione w niniejszym punkcie wyniki mogą świadczyć o nie zawsze poprawnym

    jego działaniu. Do testów użyto frazy mowy żeńskiej, spróbkowanej z częstotliwością 8 kHz,

    o rozdzielczości 16 bit, trwającej około 6,2 s. Zauważono, iż w przypadku generowania ciszy

    wraz z wydłużeniem fragmentu mowy, dla dłuższego segmentu wstawianej ciszy otrzymuje

    się, w pewnych przypadkach, większą wartość MOS (Rys.5.5). Ponadto większa liczba

    fragmentów ciszy niekoniecznie powoduje obniżenie wartości MOS. W eksperymencie,

    którego wynik podano na Rys.5.5, kolejne odcinki ciszy wstawiano zawsze w tych samych

    miejscach, a więc stopień degradacji powiększał się wraz ze zwiększaniem się liczby

    wstawianych odcinków ciszy i ich długości.

  • Rys.5.5. Wpływ wstawiania ciszy (z proporcjonalnym zwiększeniem czasu trwania nagrania) na

    wartości MOS i MOS-LQO, otrzymane z PESQ

    W Zaleceniu [PESQ1] jest mowa o zależności wartości MOS, mierzonej z

    wykorzystaniem algorytmu PESQ, od rodzaju frazy i mówcy. Zaleca się użycie 2 fraz

    wypowiadanych przez 2 mówców. Badania przeprowadzone na PW wykazują, że rozrzuty

    wartości MOS dla tego samego kodera mogą sięgać 0.9 (Rys.5.6). Z tego względu, dla

    osiągnięcia powtarzalnych wyników, należy wykorzystać nagrania większej liczby mówców i

    fraz.

    Rys.5.6. MOS dla wybranych kodeków i fraz mowy (4 mówców wypowiadających po 4

    frazy) [Sadowska]

    5.1.6. Badanie jakości mowy w usłudze VoIP z wykorzystaniem PESQ

    Badania przeprowadzono w Instytucie Telekomunikacji PW i opisano w pracy [KST10].

    W skład środowiska testowego (Rys.5.7) wchodził serwer pełniący funkcję emulatora sieci

    oraz 2 stacje klienckie z zainstalowanymi softphonami. Modyfikacji parametrów ruchu i sieci

    dokonywano za pomocą emulatora sieci – Netem (Network Emulator) . Dzięki niemu można

    było zmieniać m.in. następujące parametry: opóźnienie pakietów, jitter opóźnienia, stopę

    utraconych pakietów (PLR), stopę uszkodzonych pakietów.

  • Rys.5.7. Schemat stanowiska pomiarowego wykorzystywanego w badaniach

    Jako softphone wykorzystano aplikację Ekiga w wersji 3.2.6. Program Ekiga umożliwia

    wykonywanie połączeń dźwiękowych i wideo do użytkowników z oprogramowaniem lub

    sprzętem zgodnym z SIP (np. Windows Messenger, Gizmo) lub H.323 (np. Microsoft

    NetMeeting). Ekiga umożliwia ustawienie 12 różnych konfiguracji 8 kodeków,

    charakteryzujących się różną przepływnością binarną, opóźnieniem kodowania, złożonością

    obliczeniową i jakością kodowanego głosu. Jako frazy testowe wykorzystano nagrania głosu

    4 mówców dokonane w komorze bezechowej. Frazy mowy polskiej były fonetycznie

    zrównoważone, ich średni czas trwania wynosił 4,5 s. Wypowiadały je dwie osoby płci

    żeńskiej (ozn. F1, F2) i dwie męskiej (ozn. M2, M3).

    Pierwsza seria badań odnosiła się do koderów mowy stosowanych w VoIP. W badaniach

    porównawczych najlepsze wyniki notuje się dla koderów o przepływności 64 kbit/s (G.722,

    G.711 PCM), ponadto, kodery te wykazują najmniejszą zależność od mówcy i frazy. Nie jest

    to zaskakujące, gdyż są to tzw. kodery fali akustycznej, z przetwarzaniem skalarnym, w

    mniejszym stopniu niż kodery CELP zależne od właściwości sygnału. Kodery oparte na

    algorytmach typu CELP (GSM, iLBC, Speex) wykazują się niezłą jakością mowy i to przy

    niższych przepływnościach binarnych. Niskie przepływności nie służą koderom ADPCM;

    przy 16 kbit/s (kwantyzator skalarny 4-poziomowy) jakość mowy kodowanej w systemie

    G.726 jest słaba.

    Następnie badano wpływ utraty pakietów (PLR – Packet Loss Rate). Wyniki, pokazane

    na Rys.5.8, otrzymano drogą uśredniania wartości MOS z 16 eksperymentów (4 mówców i 4

    frazy). Wskutek utraty pakietów najwięcej „tracą” kodery o wyższej jakości i większej

    przepływności tak, że przy PLR=1% niemal wszystkie kodery charakteryzują się podobną

    jakością mowy. Wyjątkiem są kodery ADPCM o niskiej (jak na ten rodzaj kodera)

    przepływności: G.726-16 kbit/s i 24 kbit/s.

  • Rys.5.8. MOS w funkcji PLR [Sadowska]

    Rys.5.9. MOS w funkcji zmienności opźnienia pakietów [Sadowska]

    W badaniach wpływu utraty pakietów (Rys.5.8) i zmienności ich opóźnienia (Rys.5.9)

    PESQ generował sensowne oceny jakości mowy i okazał się pomocnym narzędziem. Należy

    jednak podkreślić,że wykorzystywano 16 fraz (4 mówców wypowiadających po 4 frazy).

    5.2. Ocena jakości szerokopasmowych sygnałów akustycznych

    5.2.1. Maskowanie zakłóceń

    Obiektywne metody oceny jakości sygnału audio na poziomie mediów wykorzystują

    analizę psychoakustyczną, w podobny sposób, jak kodery audio (model maskowania zakłóceń

    jest tu jednak bardziej złożony).

  • W modelu psychoakustycznym uwzględnia się tzw. absolutny próg słyszenia. Jest to

    najmniejsza wartość ciśnienia akustycznego, która wywołuje postrzegalne wrażenie

    słuchowe. Czułość słuchu jest największa w zakresie częstotliwości 2000 – 3000 Hz i maleje

    dla częstotliwości niskich i wysokich. Przebieg absolutnego progu słyszenia pokazano na

    Rys.5.10 :

    Rys.5.10 Absolutny próg słyszenia [Zwicker]

    Innym elementem analizy psychoakustycznej są pasma krytyczne. Pasma krytyczne mają

    związek rozdzielczością częstotliwościową procesów słyszenia i maskowania. Odpowiednim

    pasmom odpowiadają odcinki na błonie podstawnej ucha. Szerokość pasm krytycznych

    wzrasta w funkcji częstotliwości, wprowadzono więc nieliniową skalę tzw. barkową. Jeden

    Bark odpowiada szerokości pojedynczego pasma krytycznego. Najczęściej wyróżnia się

    około 24-25 pasm. Zależność pomiędzy liniową skalą częstotliwości a skalą barkową

    pokazano na rys.5.11.

    Rys.5.11.Zależność pomiędzy liniową i barkową skalą częstotliwości

    Maskowanie równoczesne (zwane też maskowaniem w dziedzinie częstotliwości)

    analizuje się z pasmach barkowych. Skuteczność maskowania jest uzależniona przede

    wszystkim od częstotliwości oraz poziomów ciśnienia akustycznego sygnału maskowanego i

    maskera. W przypadku gdy ton jest maskowany wąskopasmowym szumem, próg słyszalności

    podnosi się gdy następuje zbliżenie częstotliwości środkowej pasma szumu do częstotliwości

    tonu, a najsilniejsze maskowanie występuje gdy te częstotliwości są równe. Krzywe

    maskowania są symetryczne względem częstotliwości środkowej pasma szumu jedynie gdy

    poziom maskera nie przekracza 60 dB, w przeciwnym przypadku stają się one bardziej strome

    po stronie niższych częstotliwości( Rys.5.12 ).

    -10

    0

    10

    20

    30

    40

    50

    60

    70

    80

    90

    0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18

    po

    zio

    m [d

    B]

    częstotliwość [kHz]

  • Rys.5.12 Podwyższenie progu słyszalności tonów, maskowanych szumem pasmowym o

    szerokości pasma 90 Hz i częstotliwości środkowej 410 Hz ; krzywe maskowania opisano wartościami

    poziomu ciśnienia akustycznego pasma szumu [Sęk]

    Progi maskowania poszczególnych sygnałów nakładają się na siebie w sposób

    nieliniowy, tworząc krzywą maskowania.

    5.2.2. Metoda PEAQ

    Koncepcja metody PEAQ nie odbiega od PESQ, jednak z uwagi na pełne pasmo

    akustyczne, struktura algorytmu jest bardziej złożona. Opis metody można znaleźć w pracy

    [Kabal]. W algorytmie można wyróżnić następujące etapy przetwarzania sygnału

    oryginalnego i przetworzonego (np. po kompresji z wykorzystaniem jednej z metod MPEG-

    Audio):

    Przetwarzanie wstępne: przepróbkowanie do 48 kHz, podział na okna 2048 próbek z przesuwem co 1024 próbki,

    Nałożenie okien i obliczenie DFT (wykorzystuje się okno Hanninga),

    Kalibracja poziomu głośności, modelowanie ucha zewnętrznego,

    Dekompozycja widma na pasma krytyczne (skala barkowa) z uwzględnieniem szumu wewnętrznego ucha,

    Uwzględnienie stałych czasowych ucha w poszczególnych pasmach krytycznych, oraz maskowania w dziedzinie czasu (pre- i post-masking)

    Ekstrakcja parametrów z sygnału oryginalnego i przetworzonego, stanowiących bazę do porównania obu sygnałów,

    Obliczenie wstępnego, wektorowego wskaźnika jakości (MOV – Model Output Variable). Pochodzi on z przetwarzania 5 lub 11 wskaźników cząstkowych

    (zależnie od wersji algorytmu PEAQ), w tym pasma sygnału oryginalnego i

    przetworzonego, stosunku sygnału do poziomu maskowania w dziedzinie

    częstotliwości, struktury widma (harmoniczna, szumowa), itp.

    Obliczenie, z wykorzystaniem sieci neuronowej, stopnia degradacji sygnału przetworzonego w stosunku do sygnału oryginalnego ODG (Objective Difference

    Grade). Stosuje się 5-punktową skalę: 0 oznacza brak słyszalnego pogorszenia

    jakości, -4 to bardzo dokuczliwe pogorszenie jakości. Odpowiada to utracie

    jakości w skali MOS. Skala ocen (ODG) generowanych przez algorytm PEAQ jest zatem następująca:

    0 – pogorszenie jakości niesłyszalne

    -1 – wyczuwalne, ale nie przeszkadzające

    -2 – nieznacznie przeszkadzające

  • -3 – przeszkadzające

    -4 – bardzo przeszkadzające

    Algorytm PEAQ jest również przystosowany do oceny jakości sygnału stereofonicznego

    (dwukanałowego). Jest znormalizowany przez ITU-R w Zaleceniu BS 1387 [PEAQ].

    Twórcy tej normy publikują wyniki badań porównawczych: ODG w funkcji SDG

    (Subjective Difference Grade, czyli utrata jakości sygnalizowana przez słuchaczy) – Rys.5.13.

    Dla sygnałów o dobrej jakości obie metryki jakościowe nie odbiegają od siebie, jednak dla

    sygnałów o niskiej jakości różnice mogą być znaczne.

    Rys.5.13 Porównanie metryk ODG (generowana przez PEAQ) z SDG (uśrednione

    wrażenia słuchaczy) [PEAQ]

    5.2.3. Testy i badania z wykorzystaniem PEAQ

    Istnieją