badanie i wnioskowanie...

BADANIE I WNIOSKOWANIE DIAGNOSTYCZNE

WYBRANE ZAGADNIENIA

Praca zbiorowa

pod redakcją naukową Tadeusza DĄBROWSKIEGO

Warszawa 2013

Opiniodawcy prof. dr hab. inŜ. Jerzy LEWITOWICZ prof. dr hab. inŜ. Andrzej MICHALSKI Redakcja naukowa:

dr hab. inŜ. Tadeusz DĄBROWSKI Wojskowa Akademia Techniczna, Wydział Elektroniki

Autorzy:

Rozdział 1 dr inŜ. Piotr BOJAR Uniwersytet Technologiczno-Przyrodniczy,

Wydział InŜynierii Mechanicznej prof. dr hab. inŜ. Maciej WOROPAY WyŜsza Szkoła Techniki i Przedsiębiorczości we

Włocławku Rozdział 2 dr hab. inŜ. Tadeusz DĄBROWSKI Wojskowa Akademia Techniczna, Wydział Elektroniki

Rozdział 3 dr hab. inŜ. Andrzej P. DOBROWOLSKI Wojskowa Akademia Techniczna, Wydział Elektroniki dr inŜ. Jacek JAKUBOWSKI Wojskowa Akademia Techniczna, Wydział Elektroniki mgr inŜ. Ewelina MAJDA Wojskowa Akademia Techniczna, Wydział Elektroniki mgr inŜ. Jolanta PACAN Wojskowa Akademia Techniczna, Wydział Elektroniki mgr inŜ. Michał WIŚNIOS Wojskowa Akademia Techniczna, Wydział Elektroniki Rozdział 4 prof. dr hab. inŜ. Jerzy GIRTLER Politechnika Gdańska,

Wydział Oceanotechniki i Okrętownictwa Rozdział 5 dr inŜ. Marek KUCHTA Wojskowa Akademia Techniczna, Wydział Elektroniki Rozdział 6 prof. dr hab. inŜ. Henryk TYLICKI Państwowa WyŜsza Szkoła Zawodowa w Pile Rozdział 7 dr inŜ. Jacek WOJTAS Wojskowa Akademia Techniczna, Instytut Optoelektroniki © Copyright by Instytut Systemów Elektronicznych Wydział Elektroniki Wojskowej Akademii Technicznej

Warszawa 2013

ISBN 978-83-62954-80-3 Publikacja zakwalifikowana do druku bez poprawek edytorskich Redakcji Wydawnictw WAT

Projekt okładki: Barbara Chruszczyk

Skład komputerowy: mgr inŜ. Jolanta Pacan, mgr inŜ. Michał Wiśnios

Wydawca: Wojskowa Akademia Techniczna

Druk: BEL Studio Sp. z o.o., ul. Powstańców Śląskich 67b, 01-355 Warszawa

Warszawa 2013

Spis treści

WSTĘP ............................................................................................................................................... 7

1. BEZPIECZEŃSTWO PROCESU TRANSPORTOWEGO W ŚWIETLE RÓŻNORODNYCH

WYMUSZEŃ.............................................................................................................................. 11

1.1. Wstęp..................................................................................................................................... 11

1.2. Bezpieczeństwo działania systemów transportowych ........................................................... 11

1.3. Identyfikacja czynników oddziałujących na systemy transportowe ..................................... 15

1.4. Obiekt badań ......................................................................................................................... 25

1.5. Algorytm oceny bezpieczeństwa działania systemu miejskiej komunikacji autobusowej .... 29

1.6. Podsumowanie ...................................................................................................................... 33

2. POTENCJAŁOWE KRYTERIA BEZPIECZEŃSTWA SYSTEMU EKSPLOATACJI .......... 35

2.1. Wstęp..................................................................................................................................... 35

2.2. Charakterystyka systemu bezpiecznościowego ..................................................................... 35

2.3. Potencjałowe miary i kryteria zdatności bezpiecznościowej ................................................ 41

2.4. Wnioskowanie użytkowo-bezpiecznościowe w oparciu o trajektorie potencjałowe ............ 43

2.5. Ilustracja bezpiecznościowego wnioskowania diagnostycznego .......................................... 46

2.6. Podsumowanie ...................................................................................................................... 49

3. PRZETWARZANIE WYBRANYCH DANYCH BIOMETRYCZNYCH NA POTRZEBY

IDENTYFIKACJI TOŻSAMOŚCI ............................................................................................ 51

3.1. Wprowadzenie ....................................................................................................................... 51

3.2. Rozpoznawanie twarzy ......................................................................................................... 52

3.3. Rozpoznawanie głosu ............................................................................................................ 78

3.4. Demonstrator technologii multibiometrycznego systemu rozpoznawania osób ................... 94

3.5. Podsumowanie ...................................................................................................................... 98

4. METODA OCENY DZIAŁANIA MASZYN Z ZASTOSOWANIEM DIAGNOSTYKI

TECHNICZNEJ ........................................................................................................................ 101

4.1. Wstęp................................................................................................................................... 101

4.2. Działanie maszyn w ujęciu deterministycznym .................................................................. 103

4.3. Działanie maszyn w ujęciu probabilistycznym ................................................................... 112

4.4. Diagnostyka maszyn w aspekcie ich działania .................................................................... 113

4.5. Zastosowanie procesów stochastycznych do opisu działania maszyn ................................ 117

4.6. Podsumowanie .................................................................................................................... 124

5. MODELOWANIE WYBRANYCH UKŁADÓW BIOMECHANICZNYCH ......................... 129

5.1. Wstęp................................................................................................................................... 129

5.2. Modelowanie układów biomechanicznych ......................................................................... 132

5.3. Modele fizyczne układów biomechanicznych ..................................................................... 140

5.4. Modele matematyczne układów biomechanicznych ........................................................... 145

5.5. Wnioski końcowe ................................................................................................................ 152

6. GENEZOWANIE STANU MASZYN – SZACOWANIE PRZYCZYN USZKODZEŃ ........ 155

6.1. Wstęp ................................................................................................................................... 155

6.2. Charakterystyka zagadnienia ............................................................................................... 155

6.3. Budowa procedur genezowania stanu ................................................................................. 160

6.4. Przykład ............................................................................................................................... 170

6.5. Podsumowanie .................................................................................................................... 178

7. ZASTOSOWANIE SPEKTROSKOPII ABSORPCYJNEJ W PODCZERWIENI DO

WYKRYWANIA BIOMARKERÓW CHORÓB W LUDZKIM ODDECHU ........................ 181

7.1. Spektroskopia absorpcyjna w podczerwieni ....................................................................... 181

7.2. Wybrane biomarkery chorób wykrywane w oddechu człowieka ........................................ 185

7.3. Układy do spektroskopii absorpcyjnej ................................................................................ 188

7.4. Spektroskopia strat we wnęce optycznej ............................................................................. 190

7.5. Projekt systemu do wykrywania biomarkerów ................................................................... 194

7.6. Podsumowanie .................................................................................................................... 197

51

ROZDZIAŁ 3

PRZETWARZANIE WYBRANYCH DANYCH BIOMETRYCZNYCH

NA POTRZEBY IDENTYFIKACJI TOŻSAMOŚCI

Andrzej P. DOBROWOLSKI, Jacek JAKUBOWSKI, Ewelina MAJDA,

Jolanta PACAN, Michał WIŚNIOS

W niniejszym rozdziale zaprezentowano wybrane zagadnienia z obszaru technicznych

systemów multibiometrycznej identyfikacji osób. Autorzy skoncentrowali się na

charakterystyce współczesnych algorytmów przetwarzania obrazu twarzy i mowy, które

stanowią podstawę procedur rozpoznawania w warunkach niskiego stopnia współpracy

badanej osoby. W kolejnych podrozdziałach przedstawiono ideę holistycznego i lokalnego

algorytmu rozpoznawania twarzy, autorską metodę ekstrakcji cech sygnału głosu opartą na

analizie cepstralnej, metodykę ich selekcji oraz odległościowy algorytm klasyfikacji.

W zakończeniu zaprezentowano prototypowy demonstrator systemu wykorzystującego

omówione metody przetwarzania.

3.1. Wprowadzenie

Biometria jest nauką zajmującą się matematyczno-statystycznymi badaniami

zmienności populacji organizmów żywych oraz pomiarami ich mierzalnych cech, która

znajduje szerokie zastosowanie w problematyce komputerowego rozpoznawania lub

weryfikacji tożsamości. Metody biometryczne bazują na unikatowych cechach organizmu

ludzkiego, które charakteryzują się indywidualnością, powszechnością, wysoką

niezmiennością pod wpływem czynników takich, jak wiek czy stan psychofizyczny

człowieka oraz mierzalnością, czyli łatwością oceny ilościowej. Organizm człowieka

wykazuje wiele właściwości spełniających w zadowalającym stopniu powyższe założenia.

Dużą zaletą biometrycznych metod rozpoznawania i weryfikacji tożsamości jest fakt, że

analizowanych w procesie rozpoznania cech nie można ukraść, zgubić ani w większości

przypadków podrobić w sposób łatwy i opłacalny finansowo. Ze względu na rodzaj

analizowanej cechy techniki biometryczne dzielą się na dwie zasadnicze grupy. Pierwsza

obejmuje metody wykorzystujące cechy fizjologiczne, tzw. genotypowe, spośród których

najbardziej rozpowszechnione są linie papilarne, obraz twarzy, tęczówka oka czy kod

DNA. Druga grupa bazuje na cechach behawioralnych, tzw. fenotypowych, które są

wzorcami indywidualnych zachowań nabytych przez człowieka w procesie wzrostu.

Przykładami tego typu cech są: charakter pisma odręcznego, ruchy gałki ocznej i głos,

którego charakter jest zależny zarówno od budowy narządów aparatu głosowego, jak i

nabytego w dzieciństwie sposobu wytwarzania dźwięku.

Oprócz oczekiwanej wysokiej wiarygodności działania systemu biometrycznego

niemniej istotna jest akceptowalność sposobu pobrania danych do analizy. W wielu

praktycznych zastosowaniach istnieje silna potrzeba realizacji koncepcji badania

przesiewowego przeprowadzanego w trybie „on-line”. Najlepszym materiałem do tego

celu, ze względu na brak konieczności współdziałania podmiotu poddawanego

identyfikacji i coraz lepsze uzyskiwane wiarygodności, jest zarejestrowany obraz twarzy.

Wstępne wskazania badania przesiewowego bazującego na jego analizie mogą być

wówczas uzupełniane analizą wymagającą pewnego prostego współdziałania, czyli np.

Andrzej P. DOBROWOLSKI, Jacek JAKUBOWSKI, Ewelina MAJDA, Jolanta PACAN, Michał WIŚNIOS

52

analizą głosu. Ostateczne rozstrzygnięcie, celem zmniejszenia do zera niepewności

decyzji, jest możliwe z wykorzystaniem pozostałych wysoko wiarygodnych, choć bardziej

inwazyjnych i czasochłonnych metod, jak np. rozpoznawanie na podstawie odcisków

palców i/lub kodu DNA. Ze względu na powyższe uwarunkowania niniejszy materiał

przedstawia aktualny stan wiedzy w zakresie rozpoznawania tożsamości na podstawie

analizy obrazu twarzy i głosu oraz krótką prezentację demonstratora ich praktycznej

implementacji.

3.2. Rozpoznawanie twarzy

W przedmiotowym zadaniu identyfikacji tożsamości na podstawie obrazu twarzy,

występuje konieczność sprostania licznym wymaganiom. Należy przede wszystkim

pamiętać, że twarz jest obiektem trójwymiarowym, którego dwuwymiarowa projekcja

stanowi tylko pewnego rodzaju przybliżenie. Jako główne powody ograniczania

efektywności działania większości metod rozpoznawania tożsamości na podstawie

statycznego obrazu twarzy, można wymienić następujące czynniki:

Zmienne oświetlenie twarzy skutkujące zmianą danych do analizy, tworzonych z

macierzy jasności pikseli.

Różne ustawienia twarzy względem kamery, która zazwyczaj jest urządzeniem

stacjonarnym i nie może zmieniać swojej pozycji w dowolny sposób, natomiast

ustawienie identyfikowanej osoby może być całkowicie przypadkowe jeżeli

procedura uwierzytelniania ma odbywać się bez jej wiedzy.

Mimika twarzy, która jest odzwierciedleniem emocji i stanu psychofizycznego

człowieka. Stanowi ona poważny problem dla wszystkich technik rozpoznawania

twarzy, gdyż nawet najmniejsza zmiana wyrazu twarzy zauważalna dla oka

ludzkiego może powodować znaczącą zmianę wektora cech opisującego

dwuwymiarowy obraz.

Przesłonięcie części twarzy, które powoduje dwojakiego rodzaju trudności. Po

pierwsze dodaje do obrazu nowy element taki, jak np. okulary, fryzura lub makijaż,

co w sposób oczywisty wpływa na postać wektora cech, a po drugie może

eliminować z obrazu ważną z punktu widzenia wykorzystywanej metody

rozpoznawania twarzy cechę. Zasłonięcie ust, nosa czy oczu może całkowicie

uniemożliwić przeprowadzenie poprawnej identyfikacji przy zastosowaniu metod,

które bazują na cechach antropometrycznych.

Na przestrzeni lat były konstruowane i testowane różne strategie ekstrakcji i

wykorzystania uzyskanych cech obrazu twarzy w procesie rozpoznawania tożsamości [1].

Stosowane początkowo podejścia geometryczne [2], zwane też analitycznymi zostały

zastąpione rozpowszechnionymi współcześnie metodami holistycznymi (całościowymi),

które traktują obraz jako macierz wartości poddawaną transformacji do postaci

wielowymiarowego wektora cech [3] lub też metodami mieszanymi, które ze względu na

mnogość stosowanych technik trudno jednoznacznie zaszeregować do jednej z

powyższych kategorii. Jedna z metod całościowych, jako klasyczna, stała się podstawą do

opracowania algorytmów rozpoznawania na potrzeby zaprezentowanego w dalszej części

demonstratora. Jednocześnie jako alternatywę zaproponowano użycie rozwijanych w

ostatnich latach [4] w obszarze widzenia maszynowego, nowoczesnych metod

przetwarzania obrazów bazujących na detekcji i opisie lokalnych wyróżnionych punktów

obrazu, zwanych punktami charakterystycznymi. Ze względu na sposób uzyskiwania,

deskryptory takich punktów cechują się wysokim stopniem odporności na obrót obrazu,

zmianę skali, położenia i do pewnego stopnia perspektywy. Dzięki temu znajdują one

zastosowanie w syntezie zdjęć panoramicznych i lotniczych [5], orientowaniu

Przetwarzanie wybranych danych biometrycznych na potrzeby identyfikacji tożsamości

53

przestrzennym urządzeń mobilnych [6] i wyszukiwaniu znanych wzorców w obrazach

cyfrowych, w tym wzorców obrazów twarzy [7 - 8]. Z uwagi na fakt, że wyznaczanie

deskryptorów cech lokalnych jest dość nową metodą przetwarzania, znaną jak na razie

jedynie z publikacji naukowych, w niniejszym opracowaniu poświęcono jej znacznie

więcej miejsca w stosunku do podejścia klasycznego, które zostało potraktowane jako

odniesienie.

3.2.1. Charakterystyka metod holistycznych na przykładzie algorytmu „twarzy

własnych”

3.2.1.1. Transformacja PCA jako generator cech charakterystycznych

W ogólnym przypadku dane wejściowe dla przekształcenia PCA to wielowymiarowy

wynik eksperymentu – zbiór N p-wymiarowych realizacji (wektorów), które w praktyce

reprezentują wielowymiarową zmienną losową T] ... pXXX 21[X

)(

)(

2

)(

1

)2(

)2(

2

)2(

1

)1(

)1(

2

)1(

1

...

...

...

...

...

......N

p

N

N

pp x

x

x

x

x

x

x

x

x

(3.2.1)

Górny indeks w powyższej zależności wskazuje na numer wyniku eksperymentu, a dolny

jest wskaźnikiem współrzędnej. W danych tych możliwe jest występowanie korelacji

pomiędzy współrzędnymi x1, x2, …, xp, która jest dowodem na nadmiarowość w opisie

eksperymentu za ich pomocą.

Ideą analizy PCA jest znalezienie takiej macierzy przekształcenia T, aby wyjściowy

zbiór danych tworzący macierz Y, złożony z kolumnowych wektorów y(i)

:

)(

)(

2

)(

1

)2(

)2(

2

)2(

1

)1(

)1(

2

)1(

1

)(

)(

2

)(

1

)2(

)2(

2

)2(

1

)1(

)1(

2

)1(

1

...

...

...

...

...

.........

...

...

...

...

......N

p

N

N

pp

N

p

N

N

pp x

x

x

x

x

x

x

x

x

y

y

y

y

y

y

y

y

y

T (3.2.2)

charakteryzował się występowaniem braku korelacji pomiędzy współrzędnymi oraz aby

współrzędne te były uporządkowane malejąco ze względu na wariancję. Wymagania na

dane wyjściowe można zatem opisać ich macierzą kowariancji

pp

y

s

s

s

...

0

0

...

...

...

...

0

...

0

0

...

0 22

11

S (3.2.3)

w której dodatkowo zachodzi

ppsss ...2211 (3.2.4)

Oznacza to, że w danych wyjściowych kowariancja dla każdej z par współrzędnych

jest zerowa (istnieją tylko niezerowe wariancje na przekątnej macierzy Sy). Warunek

(3.2.4) oferuje możliwość odrzucenia ostatnich współrzędnych danych wyjściowych, gdyż

ze względu na możliwą małą wariancję charakteryzują się one małą zmiennością i jako

takie nie zawierają znaczącej informacji. Przekształcenie PCA, po znalezieniu macierzy T

jest więc narzędziem do skutecznej kompresji danych (eksperyment może być opisywany

za pomocą mniejszej ilości współrzędnych bez znaczącej utraty informacji), która, jak się

okaże, jest zbieżna z procesem generacji cech charakterystycznych.


54

Procedurę wyznaczenia macierzy przekształcenia T można formalnie zamknąć w

trzech krokach:

1) wyznaczenie macierzy kowariancji danych wyjściowych

TiN

i

i

xN

))((1

1 )(

1

)(XxXxS

(3.2.5)

2) wyznaczenie dla macierzy kowariancji Sx następujących elementów:

wartości własnych pλλλ ...,,, 21 oraz

ortonormalnych wektorów własnych pttt ...,,, 21

spełniających warunki

jjjx ttS λ dla j=1, 2, …, p (3.2.6)

oraz

ji

jiji

dla

dla

0

1tt (3.2.7)

Narzędzi do wyznaczenia wektorów własnych i wartości własnych dostarcza

algebra liniowa.

3) utworzenie macierzy przekształcenia w postaci wierszowej macierzy wektorów

własnych w kolejności malejących wartości własnych:

T

p

T

T

t

t

t

T...

2

1

, pλλλ ...21 (3.2.8)

Zgodnie z zapisem działania za pomocą zależności (3.2.2), wektory własne w

powyższej macierzy tworzą kierunki, na które rzutowane są dane wejściowe.

Kierunki te nazywane są kierunkami głównymi (i stąd nazwa metody).

Uzasadnieniem dla powyższego postępowania jest postać macierzy kowariancji

danych wyjściowych

TiN

i

i

yN

))((1

1 )(

1

)(YyYyS

(3.2.9)

Po dokonaniu podstawienia )()( ii

xTy oraz XTY otrzymuje się

T

x

TTiN

i

iTTiN

i

i

TiN

i

iTiN

i

i

y

NN

NN

TTSTXxXTxTTXxXTxT

XxTXxTXTTxXTTxS

]))((1

1[))((

1

1

)]()[(1

1))((

1

1

)(

1

)()(

1

)(

)(

1

)()(

1

)(

(3.2.10)

Uwzględniając postulowaną postać macierzy przekształcenia (3.2.8), ostatnie mnożenie

macierzowe można przeprowadzić następująco

] ... ] ... pxxx

T

p

T

T

px

T

p

T

T

y tStStS

t

t

t

tttS

t

t

t

S

21

2

1

21

2

1

[...

[...

(3.2.11)


55

Korzystając z zależności (3.2.6) wiążącej macierz kowariancji Sx z jej wektorami

własnymi oraz warunku ortonormalności tych wektorów (3.2.7), macierz kowariancji

danych wyjściowych przyjmuje postać

p

pp

T

p

T

T

y

λ

λ

λ

λλλ...

0

0

...

...

...

...

0

...

0

0

...

0[

...

2

1

2211

2

1

] ... ttt

t

t

t

S (3.2.12)

Oznacza to, że współrzędne danych wyjściowych będą nieskorelowane, a ich wariancje są

jednocześnie wartościami własnymi.

Z punktu widzenia przetwarzania obrazów za pomocą PCA istotna jest interpretacja

przekształcenia odwrotnego. Z warunku ortonormalności (3.2.7) wynika, że macierz

odwrotną przekształcenia uzyskuje się na drodze prostej transpozycji

ITT T (3.2.13)

11 TTTTT 1 TTI

T 1TTT (3.2.14)

gdzie I jest macierzą jednostkową. Stąd odtworzenie danych wejściowych na podstawie

przekształcenia odwrotnego będzie przebiegać na podstawie następującej formuły

k

p

k

i

k

i

p

i

i

p

iTii y

y

y

y

ttttyTyΤx

1

)(

)(

)(

2

)(

1

21

)()(1)(

...[ ] ... (3.2.15)

Wynika z niej, że każdy wektor danych wejściowych może być wyrażony w postaci

liniowej kombinacji wszystkich wektorów własnych, w której współczynnikami są kolejne

współrzędne wektora danych wyjściowych. W tym sensie występuje tutaj pewne

podobieństwo do szeregu Fouriera – dany wynik eksperymentu może być przedstawiony w

postaci sumy pewnej liczby wektorów własnych branych z mnożnikami („amplitudami”)

ustalanymi w wyniku przekształcenia. Różnica polega na tym, że w szeregu Fouriera zbiór

bazowych funkcji, np. funkcji harmonicznych, jest z góry narzucony, a w przekształceniu

PCA jest on zależny od posiadanego zbioru danych wejściowych, który przy zastosowaniu

PCA w procedurach rozpoznawania można utożsamiać ze zbiorem danych uczących.

Transformacja za pomocą macierzy PCA tych nowych przypadków, które są podobne do

danych uczących powinna dostarczyć wektora znajdującego się w pobliżu

odpowiadających im danych wyjściowych. Odrzucenie pewnej liczby ostatnich

współrzędnych, przy spełnionej własności (3.2.4), może wówczas spowodować skuteczne

zmniejszenie wymiaru, czyli generację ograniczonej liczby cech przeznaczonych dla

rozpoznawania.

3.2.1.2. Metodyka wykorzystania przekształcenia PCA w analizie obrazów

Zastosowanie przekształcenia PCA do rozpoznawania obrazów w kontekście

powyższej interpretacji wymaga przeprowadzenia przetwarzania wstępnego obrazu o(i)

zapewniającego utworzenie wektora, który będzie traktowany jak wielowymiarowy wynik

eksperymentu x(i)

w macierzy danych wejściowych, wg zależności (3.2.1). Sposób

realizacji takiego przetwarzania wskazano na rys. 3.2.1.


56

Rys. 3.2.1. Schemat wytwarzania wektora na podstawie macierzy. Strzałki symbolizują miejsce

zaczepienia i przeprowadzenia operacji „rozciągnięcia” macierzy

Wyznaczenie macierzy przekształcenia wg kroków określonych równaniami (3.2.5)

– (3.2.8) napotyka jednak wówczas na trudne do przezwyciężenia problemy obliczeniowe.

Wstępne przetworzenie obrazów o wymiarach M x M (jak np. niewielkiego obrazu

100x100) wytwarza bardzo długie wektory o długości M 2 elementów. Wymagana do

znalezienia wektorów własnych macierz kowariancji będzie mieć wówczas wymiary M 2 x

M 2, co sprawia, że nieodzowne staje się takie przeformułowanie problemu, aby możliwe

było zastosowanie algorytmów algebry liniowej w sposób efektywny obliczeniowo.

Podstawą do niego jest własność dekompozycji na wektory własne i wartości własne,

zgodnie z którą przy liczbie danych wejściowych (liczbie obrazów) N mniejszej od

wymiaru przestrzeni M 2, liczba wektorów, z którymi stowarzyszone są niezerowe wartości

własne wynosi nie M 2, ale (N – 1). Problem ich wyznaczenia można wówczas zredukować

do problemu dekompozycji „małej” macierzy kowariancji o wymiarach N x N [9].

Upraszczając zapis (3.2.5), określający sposób na obliczenie macierzy kowariancji, do

postaci

T

xN

AAS

1

1 (3.2.16)

w której A jest kolumnową macierzą M 2–wymiarowych wyników eksperymentów z

usuniętą wartością średnią X

] ... )()()[( )()2()1(XxXxXxA N

(3.2.17)

można rozważyć istnienie macierzy proporcjonalnej do macierzy kowariancji danych

transponowanych

AAC

T

N 1

1 (3.2.18)

która w sposób naturalny ma wymiary N x N, gdzie N jest liczbą wektorów. Należy

zwrócić uwagę na czynnik normujący (N – 1), który formalnie z uwagi na liczbę kolumn

M 2

po transpozycji danych powinien wynosić (M 2

– 1). Ze względu na znacząco

zmniejszone w porównaniu do Sx wymiary macierzy C, obliczenie dla niej wektorów

własnych vi i wartości własnych i nie stanowi problemu. Przemnażając zapis definicyjny

dekompozycji macierzy C

iii vvC μ (3.2.19)

przez macierz A otrzymuje się zapis

iii

T

NvAvAAA

μ

1

1 (3.2.20)

z którego wynika, że zgodnie z (3.2.16) iloczyny A vi są wektorami własnymi macierzy

kowariancji Sx

iiix vAvAS μ (3.2.21)

2 13 7 16 6

8 12 15 14 5

3 6 8 7 12

6 11 12 0 1

2 13 7 16 6 8 12 15 14 5 3 6 8 7 12 6 11 12 0 1


57

A zatem, po nieskomplikowanym numerycznie wyznaczeniu wektorów własnych vi

„małej” macierzy kowariancji istnieje możliwość równie łatwego wyznaczenia

poszukiwanych wektorów własnych

N

k

k

iii k1

)( )()( XxvvAl (3.2.22)

które dla zachowania własności (3.2.7) należy unormować uzyskując ostatecznie wektory

ortonormalne – składowe macierzy przekształcenia PCA dla obrazów

i

T

i

ii

ll

lt

(3.2.23)

3.2.1.3. Pojęcie twarzy własnych – eigenfaces

Zgodnie z równaniem (3.2.22) wektor własny jest liniową kombinacją wektorów

uzyskiwanych bezpośrednio z obrazów twarzy, z których usunięto obraz średni. Jako

wektor może być on poddany operacji odwrotnej do operacji przedstawionej na rys. 3.2.1 i

dzięki temu dostarczyć obrazu ui podobnego do twarzy, który jako obrazowy odpowiednik

wektora własnego jest nazywany twarzą własną [9]. Na rys. 3.2.2 przedstawiono zestaw 20

fotografii przykładowego zbioru uczącego obejmującego po 4 obrazy twarzy dla 5 osób.

Rys. 3.2.2. Przykładowy zbiór uczący dla 5 osób. Wymiary każdej z fotografii wynosi 100 x 100

Zgodnie z (3.2.22) operacja wyznaczenia twarzy własnych wymaga wykorzystania

obrazu twarzy średniej


58

N

i

i

N 1

)(1oO (3.2.24)

który dla fotografii z rys. 3.2.2 pokazany jest na rys. 3.2.3.

Rys. 3.2.3. Obraz twarzy uśrednionej dla fotografii z rys. 3.2.2

Zbiór twarzy własnych, wyznaczony na podstawie obrazów z rys. 3.2.2

przedstawiono na rys. 3.2.4. Istotny jest jego sens fizyczny. Z punktu widzenia teorii

aproksymacji zbiór ten stanowi bazę (bazę twarzy), na której rozpięta jest przestrzeń

oryginalnych danych, gdyż umożliwia perfekcyjną rekonstrukcję każdego z jej elementów

w oparciu o przeformułowaną postać zależności (3.2.15)

Ouo

k

N

k

i

k

i1

1

)()( ω (3.2.25)

W zależności tej wektor T]ω ... ω ω )(

1

)(

2

)(

1

)( [ i

N

iii

ω jest efektem przekształcenia PCA

danych oryginalnych i może być traktowany jako wektor wag, z którymi brane są twarze

własne przy rekonstrukcji obrazu.

Rys. 3.2.4. Zestaw twarzy własnych dla zbioru fotografii z rys. 3.2.2


59

Przykład takiej rekonstrukcji przy malejącej liczbie wykorzystanych twarzy własnych

pokazany jest na rys. 3.2.5. Należy zwrócić uwagę na istniejącą w PCA zdolność do

kompresji informacji – rozpoznawalne cechy osobnicze odtwarzane są w sposób

zadowalający nawet przy n = 5, co oznacza, że przy posiadanym zbiorze twarzy własnych

wystarczające jest przechowywanie tylko 5 wartości liczbowych.

Rys. 3.2.5. Rekonstrukcja jednego z obrazów z danych uczących z wykorzystaniem malejącej

liczby twarzy własnych n

Odtwarzanie cech osobniczych otwiera tym samym możliwość wykorzystania PCA

jako efektywnego generatora potencjalnych cech dystynktywnych obrazu twarzy dla

systemu rozpoznawania.

3.2.1.4. Idea systemu rozpoznawania na podstawie eigenfaces

Ideę funkcjonowania takiego systemu można pokazać na przykładach analizy

konkretnych przypadków osób, których obrazy wzorcowe występują w zbiorze uczącym

oraz osób, których obrazów tam nie ma. Jako przypadek nr 1 rozpatrywane jest ujęcie

osoby nr 5, które nie występuje w zbiorze uczącym. Na rys. 3.2.6 przedstawiono wyniki

przeprowadzonej analizy. Obraz będący aproksymacją zdjęcia oryginalnego w

zadowalający sposób odtwarza cechy osobnicze prezentowanej osoby nawet przy użyciu

tylko 4 twarzy własnych, co przekłada się również na pożądane położenie jego cech

uzyskanych w wyniku PCA w dwuwymiarowej przestrzeni danych uczących. Ilościowa

ocena zgodności badanego obiektu z poszczególnymi klasami może być przeprowadzona

metodą minimalno-odległościową z wykorzystaniem np. odległości euklidesowej. Jej

wyniki przedstawione są w tab. 3.2.1 i wskazują, że badany przypadek znajduje się

najbliżej obiektów tworzących klasę nr 5.

Przypadek nr 2 dotyczy osoby, której fotografie nie występują w zbiorze uczącym.

Próba aproksymacji obrazu twarzy tej osoby za pomocą nawet pełnego zestawu twarzy

własnych (rys. 3.2.7) nie pozwala na wizualne stwierdzenie jej zgodności z oryginałem.

Punkt odpowiadający przypadkowi nr 2 w przestrzeni cech danych uczących nie wpisuje

się tym samym w obszar zajęty przez próbki uczące którejkolwiek z klas, co w sposób

ilościowy wykazuje rozkład odległości przedstawiony w trzeciej kolumnie tab. 3.2.1.

Innymi słowy system rozpoznawania wskaże obecność osoby nieznanej.


60

Rys. 3.2.6. Obraz (zdjęcie po lewej) przypadku nr 1 – osoby z klasy 5, jego aproksymacja

z wykorzystaniem 4 twarzy własnych (zdjęcie po prawej) oraz położenie wektora cech uzyskanych

w wyniku transformacji PCA (czarna kropka) w dwuwymiarowej przestrzeni danych uczących

Rys. 3.2.7. Obraz (zdjęcie po lewej) przypadku nr 2 – osoby nieznanej, jego aproksymacja

z wykorzystaniem wszystkich twarzy własnych (zdjęcie po prawej) oraz położenie wektora cech

uzyskanych w wyniku transformacji PCA (czarna kropka) w dwuwymiarowej przestrzeni danych

uczących

Przedstawiony na rys. 3.2.8 przypadek nr 3 wskazuje na siłę systemu bazującego na

wykorzystaniu twarzy własnych, gdyż reprezentuje zniekształcenie polegające na

częściowym przesłonięciu rozpoznawanego obiektu (w praktyce mogą to być np. okulary).

Zniekształcony obraz przedstawia osobę, której fotografie znajdują się w zbiorze uczącym

w klasie 5 i próba jego rekonstrukcji, mimo znaczącego ubytku treści, kończy się

powodzeniem. Punkt w dwuwymiarowej przestrzeni cech znajduje się w innym miejscu

w porównaniu z rys. 3.2.6, ale jego stopień zgodności z klasą 5, wyrażony miarą odległości

w tab. 3.2.1, pozostaje dalej bardzo wysoki.


61




uczących

Dwa ostatnie przypadki odsłaniają podstawową wadę prezentowanego podejścia, a

mianowicie brak odporności na obrót i zmianę skali rozpoznawanego obiektu, która

wynika z niespełnionego wymogu przestrzennego dopasowania analizowanych obrazów

traktowanych jako macierze wartości. Przedstawione na rys. 3.2.9 i 3.2.10 obrazy

reprezentują kolejno twarz obróconą oraz zmniejszoną w stosunku do położenia i

rozmiarów twarzy ze zbioru uczącego. Próby aproksymacji nie odtwarzają cech

osobniczych, a odpowiadające im punkty w przestrzeni cech nie wykazują pożądanego

stopnia zgodności badanego obiektu z klasą 5.




uczących


62

Rys. 3.2.10. Obraz (zdjęcie po lewej) przypadku nr 5 – osoby z klasy 5, jego aproksymacja z

wykorzystaniem wszystkich twarzy własnych (zdjęcie po prawej) oraz położenie wektora cech


uczących

Tabela 3.2.1. Odległości euklidesowe rozpatrywanych przypadków do poszczególnych klas w

przestrzeni 2D. Kolor czerwony to niepoprawne rozpoznanie

Z uwagi na przedstawione powyżej skutki wynikające z ograniczeń występujących

we wszystkich metodach holistycznych, pożądanymi metodami generacji cech

dystynktywnych są metody odporne co najmniej na zmianę położenia obiektu, jego obrót

i zmianę rozmiarów na obrazie. Teoretycznie możliwe postępowanie polegające na

wyznaczeniu cech obrazów wzorcowych dostępnych w różnych konfiguracjach

rozmiarów, obrotów oraz położeń i porównaniu ich z cechami badanego przypadku jest

jednak postępowaniem o wątpliwej wydajności obliczeniowej, równie wątpliwym efekcie

końcowym i z tego względu powinno być zastąpione jakościowo odmienną metodą

przetwarzania. Pewne nadzieje można również wiązać z odpowiednim przetwarzaniem

przypadek 1

przypadek 2

przypadek

3

przypadek 4

przypadek

5

klasa 1 5.02 3.59 4.38 2.70 3.35

klasa 2 4.34 5.99 5.16 5.68 4.97

klasa 3 3.02 2.75 2.55 0.58 1.45

klasa 4 7.33 2.82 7.43 5.73 4.62

klasa 5 0.29 4.64 0.63 2.18 2.68


63

wstępnym, kalibrującym położenie i rozmiar twarzy na obrazie, ale nie jest to zadaniem

trywialnym.

3.2.2. Charakterystyka metod lokalnych na przykładzie algorytmu SIFT

Alternatywne podejście oferują powstałe w ostatniej dekadzie algorytmy dokonujące

detekcji i opisu otoczenia lokalnych punktów obrazu zwanych punktami

charakterystycznymi, które dzięki temu można wykorzystać do porównywania treści

zawartej na obrazach cyfrowych. Do punktów takich zalicza się miejsca występowania

konfiguracji pikseli układających się w pewne specyficzne dla danego obrazu struktury jak

np. punkty narożne, skupiska, czyli obszary o charakterze ciemnych plam na jasnym tle lub

odwrotnie (tzw. bloby), punkty będące zakończeniami linii, punkty występowania

obszarów o kształcie litery T itp.

Najbardziej pożądaną własnością algorytmu oferującego detekcję punktów

charakterystycznych jest jego powtarzalność, którą można określić jako zdolność do

wykrywania tych samych punktów obiektu na obrazie poddanym elementarnym

przekształceniom, takim jak zmiana skali, obrót i przesunięcie, ale i innym jak np. zmiana

perspektywy czy oświetlenia. Zgodnie z teorią Lindeberga [10], detekcję punktów

charakterystycznych przeprowadza się poszukując wartości ekstremalnych pewnych

liniowych lub nieliniowych kombinacji pochodnych obrazów. Ilościowy opis punktu

charakterystycznego jest opisem wielowymiarowym zawierającym informację o rozkładzie

wartości gradientu w jego otoczeniu. Historycznie pierwszą z takich metod, oferującą

kompletny zestaw przekształceń, jest metoda SIFT (ang. Scale Invariant Feature

Transform), opracowana przez Davida Lowe z Uniwersytetu British Columbia w Kanadzie

[11]. Podstawą obliczeń w tej metodzie jest reprezentacja analizowanego obrazu w tzw.

przestrzeni skal, która sama w sobie oferuje potencjalną możliwość opisu obiektu

niezależnie od wielkości jego zobrazowania.

3.2.2.1. Przestrzeń skal i piramida skal

Obiekty na obrazach poddawanych analizie mogą występować na różnych i z góry

nieznanych poziomach szczegółowości, warunkowanych odległością od urządzenia

rejestrującego i jego rozdzielczością, czyli w różnych skalach – rys. 3.2.11.

Rys. 3.2.11. Przykład widoku obiektu w różnych skalach

Z uwagi na występujący najczęściej w praktyce brak informacji o rozmiarach obiektu

na obrazie, jedynym możliwym podejściem jest rozpatrzenie jego reprezentacji za pomocą

wielu dodatkowych obrazów odpowiadających różnym skalom. Obrazy takie tworzy się za

pomocą filtracji dolnoprzepustowej, która redukując szczegóły w analizowanym obrazie

odpowiada operacji odsuwania zawartego na nich obiektu od rejestratora. Rozwinięta na

przełomie lat 80-tych i 90-tych przez Witkina, Koenderinka i Lindeberga teoria przestrzeni

skal [12 - 14] zakłada, że wykorzystanym do tego filtrem powinien być filtr opisany

funkcją Gaussa


64

2

22

2 2exp

2

1),,(

yxyxG (3.2.26)

Otrzymywanie obrazów o zmniejszającym się poziomie szczegółowości może być

zrealizowane na drodze operacji dyskretnego splotu obrazu oryginalnego z maskami

Gaussa o rosnącym parametrze – odchyleniu standardowym, które często jest wprost

nazywane skalą. Zestawienie wszystkich uzyskanych tym sposobem obrazów jest

przestrzenią skal – rys. 3.2.12.

Rys. 3.2.12. Przykład konstrukcji przestrzeni skal

Wymóg użycia filtru Gaussa wiąże się z formalnym spełnieniem szeregu aksjomatów

nakładanych na przestrzeń skal [14 - 15], ale wynika w ogólności z faktu, że jest to jedyny

filtr, który dokonując uproszczenia obrazu oryginalnego nie wnosi dodatkowych

artefaktów polegających na wprowadzaniu przy dużych skalach dodatkowych treści, które

nie występują przy skalach mniejszych. Ponadto uzyskiwanie kolejnych obrazów w

przestrzeni skal często odbywa się z iteracyjnym wykorzystaniem tylko jednego filtru [18].

Splot funkcji Gaussa o parametrze 1σ z inną funkcją Gaussa o parametrze 2σ pozostaje

dalej funkcją Gaussa, której odchylenie standardowe wyniesie 2

2

2

1 σσ . Można zatem

zastąpić filtrację z dużym parametrem dσ iteracyjną filtracją z wykorzystaniem jednego

filtru o małej wartości parametru mσ .

Bezpośrednie wyznaczenie przestrzeni skal dla zadanego obrazu w szerokim zakresie

odchyleń standardowych jest jednak zadaniem czasochłonnym i praktycznie niemożliwym

do realizacji w czasie rzeczywistym. Dlatego często stosowanym podejściem jest

zastosowanie wydajniejszego obliczeniowo algorytmu piramidy wielorozdzielczej.

Piramida taka składa się z kilku tzw. oktaw, z których każda obejmuje sekwencję obrazów

uzyskanych w wyniku zastosowania filtracji Gaussa, przy czym skala ostatniego obrazu w

oktawie jest dwukrotnie większa od skali pierwszego. Dwukrotny wzrost parametru

oznacza dwukrotne zmniejszenie szerokości widma Fouriera obrazu, co daje możliwość

zmniejszenia jego wymiarów na drodze decymacji, która dostarcza tym samym pierwszego

obrazu dla kolejnej oktawy – rys. 3.2.13. Zmniejszone wymiary obrazów w kolejnych

oktawach w sposób znaczący redukują obliczenia niezbędne do filtracji. Ustalenie

jednakowych rozmiarów obrazów w oktawach można uzyskać na drodze dodatkowego

przepróbkowania.

= 1

= 3

= 10


65

Rys. 3.2.13. Piramida skal jako wydajna obliczeniowo metoda redukcji szczegółowości obrazu.

Obrazy w pierwszym wierszu (pierwsza oktawa) uzyskane w wyniku filtracji Gaussa

charakteryzują się skalą kolejno: σ2 σ3 σ σ ,,2, . W oktawie drugiej przedstawiono obrazy

o 2-krotnie obniżonej rozdzielczości odpowiadające skalom: σ4 σ32 σ2 σ2 ,,2,

3.2.2.2. Detekcja lokalnych cech obrazu – filtry LoG i DoG

Tworzenie przestrzeni skal nie stanowi celu samego w sobie. Jest to etap pośredni do

wyostrzenia punktów charakterystycznych obrazów możliwych do detekcji

z wykorzystaniem różnych operatorów. Jednym z popularnych operatorów jest detektor

skupisk (blobów) oparty na Laplasjanie. Sam Laplasjan to odpowiednik pochodnej

dwuwymiarowej i dla obrazu traktowanego właśnie jako obiekt dwuwymiarowy I(x)=I(x,y)

jest dla każdej lokalizacji piksela x = (x,y)T sumą drugich pochodnych cząstkowych na

kierunkach x i y:

2

2

2

2 ),(),()],([

y

yxI

x

yxIyxIL

(3.2.27)

Z uwagi na właściwości drugiej pochodnej, Laplasjan charakteryzuje się

uzyskiwaniem wartości ekstremalnych w okolicach krawędzi obrazu. Poprzedzenie

Laplasjanu filtracją Gaussa redukuje oczywisty problem złego uwarunkowania zadania

obliczenia pochodnej w warunkach szumów i przy odpowiednim doborze skali zapewnia

jednocześnie wykrycie i ocenę wymiaru geometrycznego skupiska.

Obie operacje są liniowe, co oznacza, że równoważny wynik przetwarzania uzyska się

na drodze splotu obrazu z Laplasjanem filtru Gaussa:

)],([),(*)],,([)],(*),,([ yxILoGyxIyxGLyxIyxGL σσ (3.2.28)

który z tego powodu określany jest filtrem LoG (ang. Laplacian of Gaussian). Właściwości

filtru LoG jako detektora punktu charakterystycznego łatwo prześledzić dla przypadku

jednowymiarowego, który odpowiada wybraniu jednej z linii obrazu. Na rys. 3.2.14

przedstawiono efekt splotu drugiej pochodnej funkcji Gaussa z parametrem = 1 z dwoma

przebiegami reprezentującymi skupiska o dwu różnych rozmiarach.

Obserwowany przyrost odpowiedzi filtru LoG występujący w warunkach dopasowania

jego szerokości do rozmiarów skupiska świadczy o obecności punktu charakterystycznego

obrazu w skali reprezentowanej przez parametr . Każde skupisko w obrazie

charakteryzuje się pewnymi wymiarami, a tym samym charakterystyczną dla niego skalą.

Stąd jego wykrycie i w konsekwencji dalszy opis następuje na drodze znalezienia

ekstremum odpowiedzi filtru LoG w funkcji skali, czyli na drodze filtracji obrazów

z wytworzonej przestrzeni skal.


66

Rys. 3.2.14. Ilustracja idei detekcji skupiska (blobu) w obrazie za pomocą filtru LoG o wartości

parametru zbliżonej do wymiarów geometrycznych skupiska (przyjęto parametru = 1

i wymiary dwu blobów kolejno ± 3 i ± 1)

Rys. 3.2.15. Przykład detekcji skupiska na podstawie analizy ekstremum odpowiedzi

unormowanego filtru LoGnorm przy rosnącym parametrze (rozmiary skupiska ±4)


67

Ze względu na fakt, że występujące w filtrze LoG dwukrotne różniczkowanie funkcji

Gaussa zmniejsza jego współczynniki w stopniu 1/ 2

, to celem uzyskania możliwości

detekcji punktu charakterystycznego na podstawie ekstremum analizowanego

w przestrzeni skal, konieczne jest unormowanie filtru LoG współczynnikiem 2

)],([)],([ 2 yxILoGyxILoGnorm σ (3.2.29)

Dzięki temu zapewniona jest niezmienniczość detekcji punktu charakterystycznego

względem skali. Na rys. 3.2.15 przedstawiona została przykładowa ewolucja odpowiedzi

unormowanego filtru LoGnorm

przy rosnącej skali wskazująca na istnienie punktu

charakterystycznego w skali = 4.

W praktyce obliczeniowej działanie filtru LoG aproksymuje się splotem obrazu z

różnicą dwu filtrów Gaussa, uzyskując tym samym operator nazywany filtrem DoG (ang.

Difference of Gaussian). Dla określonej za pomocą (3.2.26) funkcji Gaussa zachodzi łatwa

do sprawdzenia zależność:

)],,([),,(

σσσ

σyxGL

yxG

(3.2.30)

w której pochodną można przybliżyć ilorazem różnicowym dla wartości i k:

σσ

σσσσ

σ

σ

k

yxGkyxGyxGL

yxG ),,(),,()],,([

),,(. (3.2.31)

Oznacza to, że różnica pomiędzy dwiema funkcjami Gaussa może być w sposób

przybliżony wyrażona zależnością:

)],,([)1(),,(),,( 2 σσσσ yxGLkyxGkyxG (3.2.32)

z której wynika, że zgodnie z (3.2.29) jest ona proporcjonalna do unormowanego filtru

LoG.

Konstrukcję filtru DoG i jego porównanie z filterm LoG przedstawiono na rys. 3.2.16.

Rys. 3.2.16. Idea konstrukcji filtru DoG na podstawie dwu filtrów Gaussa (przyp. = 4 i k = 1.1)


68

Wobec liniowości operacji splotu, operator DoG odpowiada odejmowaniu obrazów

różniących sią skalą, które dostarcza obrazu różnicowego D(x,y,):

),(),,(),(),,(

),()),,(),,((),,(

yxIyxGyxIkyxG

yxIyxGkyxGyxD

σσ

σσσ (3.2.33)

Jeżeli w wytworzonej do celów deskrypcji punktów charakterystycznych przestrzeni skal

zostaną zapewnione skale różniące się między sobą o stały czynnik wyrażony liczbą k, to

zgodnie z (3.2.32) za pomocą obrazów różnicowych D(x,y,) uzyska się przybliżenie

filtracji LoG niezmiennicze względem skali. Tym samym stosowanie dodatkowego

i kosztownego obliczeniowo splotu wyrażonego zależnością (3.2.28) staje się zbędne.

3.2.2.3. Strategia detekcji punktów charakterystycznych w algorytmie SIFT

Detekcja potencjalnych punktów charakterystycznych w algorytmie SIFT polega na

wyszukaniu punktów występowania blobów w rożnych skalach, co sprowadza się do

znalezienia ekstremów w obrazach różnicowych D(x,y,). W tym celu poszczególne

punkty obrazu różnicowego porównywane są z sąsiadującymi punktami tego obrazu (8

pikseli) oraz obrazów różnicowych znajdujących się powyżej i poniżej w przestrzeni skal

(po 9 pikseli w każdym) – rys. 3.2.17. Aby rozważany punkt uznać za ekstremum, jego

wartość musi być mniejsza lub większa od wartości wszystkich 26 sąsiadujących punktów.

Rys. 3.2.17. Ilustracja poszukiwania punktów charakterystycznych w obrazach różnicowych (kolor

czerwony – badany piksel, kolor zielony – sąsiednie piksele w przestrzeni skal)

Wielkością zwracaną przez powyższą procedurę jest położenie ekstremum oraz skala,

w której zostało ono wykryte. Pokrycie wymaganego zakresu skal zapewnia w algorytmie

SIFT specyficzna dla niego konstrukcja piramidy wielorozdzielczej. Zakłada się w niej

wytworzenie w każdej oktawie pewnej liczby (s+1) obrazów. Z punktu widzenia

aproksymacji filtru LoG za pomocą DoG skale kolejnych obrazów powinny różnić się o

stały czynnik k, np. dla pierwszej oktawy: , k, k2, k

3, ..., 2. Oznacza to, że musi

zachodzić (1 < k < 2)

σσσrazy

2.... s

s

kkkk (3.2.34)

skąd wynika, że 2sk oraz sk /12 . Po wytworzeniu wszystkich obrazów w pierwszej

oktawie następuje decymacja obrazu o skali 2 i na jego podstawie wytworzenie drugiej

oktawy ze skalami: 2, k2, k22, k

32, ..., 4. Kolejna oktawa tworzona jest na

podstawie obrazu o skali 4 itd. Wobec konieczności uzyskania detekcji punktów

charakterystycznych we wszystkich skalach (wg metody z rys. 3.2.17) istotne jest, aby

obraz różnicowy D(x,y,) odpowiadający danej skali był stowarzyszony z dwoma

obrazami o sąsiednich skalach ale o tej samej rozdzielczości.


69

Rys. 3.2.18. Konstrukcja piramidy skal w algorytmie SIFT.


70

Przy tworzeniu klasycznej piramidy powstanie więc przypadek, w którym obraz

różnicowy w skali 2 z oktawy pierwszej nie będzie stowarzyszony z obrazem w skali

k2 w tej samej rozdzielczości. Jednocześnie w oktawie drugiej dla obrazu różnicowego

w skali k2 nie będzie istniał obraz różnicowy w skali 2 o tej samej zredukowanej

rozdzielczości. Z powyższych względów w algorytmie SIFT zastosowano oktawy

rozszerzone o 2 dodatkowe obrazy, które umożliwiają wyznaczenie brakujących obrazów

różnicowych. Strukturę tak skonstruowanej piramidy skal algorytmu SIFT przedstawiono

na rys. 3.2.18.

Ustalona eksperymentalnie [11] w algorytmie SIFT wartość s = 2 (czyli k = 2 )

okazuje się być wystarczająca z punktu widzenia powtarzalności detekcji punktów

charakterystycznych obrazów poddawanych transformacjom, a w dodatku daje możliwość

zastosowania filtracji iteracyjnej jednym filtrem Gaussa z parametrem . Ze względu na

powtarzalność detekcji optymalną wartością tego parametru jest 1.6 [11].

Lokalizacja ekstremów w przestrzeni skal dostarcza potencjalnych kandydatów na

punkty charakterystyczne. Wiele spośród nich jest punktami niestabilnymi z punktu

widzenia powtarzalności detekcji. Celem odrzucenia punktów o niskim kontraście (a przez

to podatnych na działanie szumu), dokonuje się wśród nich selekcji bazującej na

interpolacji trójwymiarowej funkcji D(x,y,) wokół potencjalnego punktu

charakterystycznego. Interpolacja umożliwia detekcję ekstremum z rozdzielczością sub-

pikselową na drodze obliczenia i przyrównania do zera jej pochodnej. Pozwala

jednocześnie na odrzucenie tych potencjalnych punktów, dla których jej moduł, jako

moduł interpolowanego obrazu różnicowego, przyjmuje małe wartości, czyli punktów

o małym kontraście. Celem odrzucenia punktów występujących na krawędziach (mających

małą powtarzalność określania lokalizacji z tytułu podobieństwa do innych punktów

krawędziowych) badany jest stopień zakrzywienia obrazu różnicowego za pomocą

macierzy drugich pochodnych [11].

3.2.2.4. Niezmienniczość algorytmu SIFT względem obrotu

Każdemu z wyselekcjonowanych punktów charakterystycznych (autor metody określa

je też mianem punktów kluczowych) przypisuje się tzw. orientację, czyli kierunek

względem którego w kolejnym kroku sformułowany będzie ilościowy opis otoczenia

danego punktu. Orientacja ta powinna zmieniać się wraz z obrotem, pozostawiając tym

samym opis otoczenia niezmiennym względem tego przekształcenia. Jako orientację w

algorytmie SIFT przyjęto dominujący kierunek gradientu występujący w otoczeniu punktu

charakterystycznego, który określa się na podstawie tzw. histogramu orientacji.

Wykryta na etapie detekcji punktu charakterystycznego skala wskazuje na obraz L(x,y)

w przestrzeni skal, dla którego przeprowadzane są obliczenia. Dla dowolnego punktu

obrazu w tej skali amplituda m(x,y) oraz kierunek θ(x,y) gradientu mogą być wyznaczone

na podstawie różnicy wartości pikseli:

22 )]1,()1,()],1(),1([),( yxLyxLyxLyxLyxm (3.2.35)

),1(),1(

)1,()1,(),(

yxLyxL

yxLyxLarctgyx

(3.2.36)

Zestawienie lokalnych wartości modułu oraz kierunku gradientu dla przykładowego

punktu charakterystycznego wykrytego w obrazie różnicowym przedstawiono na rys.

3.2.19.


71

Rys. 3.2.19. Zobrazowanie gradientu obrazu w otoczeniu punktu kluczowego: A – obraz różnicowy

w skali z zaznaczonym kolorem czerwonym punktem kluczowym, B – powiększony obraz

różnicowy w otoczeniu punktu kluczowego, C – fragment obrazu z przestrzeni skal, odpowiadający

obrazowi różnicowemu B z naniesionymi wartościami i kierunkami gradientu (zaznaczone na

obrazie C osie stanowią odniesienie dla kierunku)

Histogram orientacji dla danego punktu wytwarzany jest na podstawie gradientu w

obszarze wyciętym za pomocą dwuwymiarowego okna Gaussowskiego o szerokości 1.5

raza większej od aktualnej skali – rys. 3.2.20. Histogram ten posiada 36 przedziałów

o szerokości 10º, co daje 360º, czyli cały możliwy zakres orientacji. Wysokość słupków

histogramu jest sumą zmodyfikowanych za pomocą wspomnianego okna wycinającego

modułów gradientów przypadających na dany przedział kierunku. Jego postać dla

analizowanego na rys. 3.2.19 przypadku przedstawiono na rys. 3.2.21.

Rys. 3.2.20. Sposób modyfikacji wartości modułu gradientu branych do obliczeń histogramu

Jako dominujący kierunek traktuje się ten, dla którego wygładzony histogram

przyjmuje wartość maksymalną. Metoda dopuszcza też wytworzenie dodatkowych

kierunków jeśli w histogramie znajdą się lokalne maksima o wysokości co najmniej 80%

maksimum globalnego. Stąd możliwe są przypadki występowania kilku punktów

kluczowych w tej samej lokalizacji, ale o różnych orientacjach. Każdy z nich będzie

oczywiście, z uwagi na różną orientację, opisywany za pomocą innych deskryptorów.

Autor metody szacuje, że występowanie wielokrotnych orientacji dotyczy ok. 15%

punktów kluczowych [11].

moduł gradientu okno wycinające wycięty moduł

gradientu

=

D(x,y,)

I(x,y,)


72

Rys. 3.2.21. Histogram orientacji dla punktu kluczowego z rysunku 3.2.19

3.2.2.5. Opis otoczenia punktu kluczowego

Przedstawione powyżej operacje przypisują wykrytemu punktowi

charakterystycznemu obrazu jego położenie, charakterystyczną skalę oraz orientację. Krok

kolejny to wyznaczenie wysoce dystynktywnego opisu otoczenia takiego punktu. Celem

uzyskania możliwie dużej odporności opisu na zmiany oświetlenia oraz zmiany kierunku

obserwacji obiektu, w algorytmie SIFT zastosowano wektor zawierający wartości

gradientu w otoczeniu punktu kluczowego. Wektor ten tworzony jest na podstawie okna

deskryptora, będącego kwadratowym wycinkiem obrazu z piramidy odpowiadającego skali

wykrytego punktu. Okno to reprezentuje obszar o wymiarach 16x16 pikseli. W oknie

obliczane są kierunki i moduły gradientu, przy czym dla zmniejszenia wpływu punktów

odległych są one mnożone są przez wagowe okno Gaussa o parametrze równym połowie

szerokości okna deskryptora – rys. 3.2.22. Dla zmodyfikowanych w ten sposób wartości

modułu gradientu w każdym z 16 podobszarów o wymiarach 4x4 wyznaczany jest

histogram orientacji na zasadach stosowanych przy wyznaczaniu orientacji punktu

kluczowego. Istniejąca różnica polega jedynie na podziale kąta pełnego na 8 przedziałów,

w których sumowane są odpowiadające im moduły gradientu.

Rys. 3.2.22. Przyjęta w algorytmie SIFT postać okna deskryptora – kwadratowy obszar podzielony

na podobszary o wymiarach 4x4 obejmujące wartości lokalnego gradientu. Zielony okrąg

przedstawia wagowe okno Gaussa


73

Deskryptor punktu kluczowego tworzony jest przez wysokości słupków wszystkich 16

histogramów orientacji. Zważywszy na fakt, że każdy z nich obejmuje 8 kierunków,

uzyskuje się dzięki temu wektor o długości 168=128 elementów. Dobór powyższych

wartości – wymiaru i liczby podobszarów oraz liczby przedziałów dla wyznaczenia

histogramu jest podyktowany wynikami eksperymentalnymi [11].

Celem uzyskania niezmienniczości opisu otoczenia punktu kluczowego względem

obrotu, należy zapewnić zgodność współrzędnych okna deskryptora, w którym obliczany

jest gradient z orientacją punktu kluczowego. Na rys. 3.2.23 powyższa idea generacji opisu

punktu kluczowego przedstawiona została dla przypadku pojedynczego punktu

analizowanego na rys. 3.2.19. Powstały opis, z uwagi na zastosowanie gradientu, który

bazuje na różnicach pomiędzy wartościami pikseli (wzory 3.2.35 i 3.2.36) jest dodatkowo

odporny na jednorodne zmiany jasności powstające na skutek dodania do każdego z nich

stałej wartości.

Rys. 3.2.23. Idea opisu otoczenia punktu kluczowego za pomocą lokalnych gradientów. Okrąg

w kolorze żółtym symbolizuje charakterystyczną skalę obrazu, w której dokonano wykrycia

i deskrypcji punktu kluczowego. Współrzędne okna deskryptora są zgodne z orientacją

Jednocześnie, celem uwzględnienia wpływu zmian kontrastu, którego źródłem jest

przemnożenie wszystkich pikseli przez stałą wartość, wynikowy 128-elementowy wektor

podlega normalizacji do wektora o jednostkowej długości. Zmiana wartości pikseli na

skutek mnożenia przez stałą odpowiada analogicznej zmianie gradientu, która na drodze

normalizacji zostaje wyeliminowana.

3.2.2.6. Idea systemu rozpoznawania na bazie deskryptorów algorytmu SIFT

Rozpoznawanie na podstawie deskryptorów punktów kluczowych zasadza się na

przyjęciu postulatu, że są one cechami dystynktywnymi obiektów, które opisują

i w praktyce polega na minimalno-odległościowym dopasowaniu punktów kluczowych

z obrazu wejściowego do punktów obrazu odniesienia lub punktów w bazie wzorców.

Strukturę procedury rozpoznawania twarzy wykorzystującą prezentowany algorytm można

przedstawić jak na rys. 3.2.24.


74

Rys. 3.2.24. Schemat funkcjonalny procedury rozpoznawania twarzy wykorzystującej

algorytm SIFT

Badany obraz twarzy jest poddawany działaniu algorytmu opisu cech lokalnych,

który pełni rolę ekstraktora cech. Zadanie klasyfikacji można rozwiązać na podstawie

badania charakteru histogramu przynależności punktów kluczowych danego obrazu twarzy

do klas osób znajdujących się w bazie. Histogram taki można utworzyć korzystając

z metody najbliższego sąsiada poprzez przypisanie danemu punktowi kluczowemu tylko

jednego numeru klasy z bazy danych, a mianowicie tej klasy, która zawiera punkt

położony najbliżej (wariant 1-NN metody k-NN). Ze względu na możliwą różną liczbę

punktów kluczowych dla różnych obrazów, histogram powinien być unormowany do

postaci wyrażającej częstość względną. Przez częstość względną należy rozumieć liczbę

punktów kluczowych sprzyjających danej klasie podzieloną przez liczbę wszystkich

punktów kluczowych rozpatrywanego obrazu. Częstość względna reprezentuje wartość

prawdopodobieństwa a-posteriori, że dany obraz twarzy należy do jednej z klas bazy osób

znanych. W przypadku, gdy wzorce badanego nowego przypadku znajdują się w bazie, to

należy się spodziewać koncentracji przynależności jego punktów kluczowych do jednej

klasy. Na rys. 3.2.25A przedstawiono histogram dla przypadku, którego rozpoznanie z

wykorzystaniem twarzy własnych zaprezentowane było na rys. 3.2.6.

Rys. 3.2.25. Porównanie histogramów przynależności punktów kluczowych obrazu osoby znanej

(A) i nieznanej (B) do punktów kluczowych zawartych w bazie zawierającej dane 5 osób. Linia

przerywana oznacza możliwy próg decyzyjny

Wzorce obrazów (rys. 3.2.2) znajdują się w bazie danych, dzięki czemu histogram

wykazuje wyraźne maksimum wskazując poprawnie na przynależność do klasy 5.

Jednocześnie, gdy identyfikacji podlega osoba nieznana i niepodobna do wzorców klas, to

wskazanie numerów każdej z nich powinno być jednakowo prawdopodobne. Wynikowy

histogram przynależności będzie więc tym samym zbliżał się do rozkładu równomiernego,

jak to przedstawiono na rys. 3.2.25B, odpowiadającym przypadkowi z rys. 3.2.7.

Porównanie obu typów rozkładów pozwala powołać prosty pojedynczy atrybut różnicujący

– wartość maksymalną histogramu oraz wyznaczyć próg umożliwiający podjęcie decyzji.

Obraz twarzy Ekstraktor cech:

algorytm SIFT

Klasyfikator: metoda

najbliższych sąsiadów

Referencyjna baza

danych

Wynik analizy


75

Rozpoznawanie w przedstawionych powyżej dwu przykładach – osoby znanej i nieznanej

przebiega więc poprawnie, podobnie jak to miało miejsce w algorytmie bazującym na

twarzach własnych. Zasadnicza różnica pojawia się w przypadkach, w których położenie

obrazu twarzy na analizowanym obrazie nie odpowiada położeniu twarzy na obrazach

wzorców. Z uwagi na przedstawiony powyżej sposób przetwarzania w metodzie SIFT,

wynikowe deskryptory tworzą wektor cech charakteryzujący się dużym stopniem

niezależności od zniekształceń występujących w obrazie na etapie jego rejestracji.

Przykład takiej niezależności przedstawiony jest na rysunkach od 3.2.26 do 3.2.28

i dotyczy przypadku operacji obrotu, która dyskwalifikowała metodę twarzy własnych

(por. rys. 3.2.9). Należy zwrócić uwagę na wysoką powtarzalność wykrycia punktów

kluczowych prezentowaną na rys. 3.2.26 – duża ich ilość występuje w tych samych

lokalizacjach na obrazach obu twarzy.

Rys. 3.2.26. Zestawienie położenia, skali (wymiary okręgów) oraz orientacji (kierunki promieni

okręgów) punktów kluczowych obrazu oryginalnego (48 wykrytych punktów) i obrazu obróconego

(47 wykrytych punktów)

Na rys. 3.2.27 przedstawiono zestawienie tych 26 par punktów kluczowych, dla

których wzajemna odległość pomiędzy ich deskryptorami jest mniejsza od założonego

progu. Porównanie deskryptorów wybranych punktów przedstawione na rys. 3.2.28

wskazuje na uzyskanie wysokiego stopnia niezmienności ich opisu względem

wprowadzonego zniekształcenia. Dzięki temu liczba punktów kluczowych dopasowana do

punktów właściwej osoby z bazy wzorców może być duża i dostarczać poprawnego

rozwiązania zadania identyfikacji. Podobne wyniki uzyskuje się dla przypadku obrazu o

zmienionej skali, dla którego zestawienie dopasowania punktów kluczowych do obrazu

wzorcowego przedstawione jest na rys. 3.2.29.

Rys. 3.2.27. Ilustracja dopasowania 26 punktów kluczowych obrazów z rys. 3.2.26. Opis liczbowy

prezentuje numery porządkowe wykrytych w obrazach punktów kluczowych.


76

Rys. 3.2.28. Porównanie 128-elementowych wektorów opisujących dopasowane punkty kluczowe

wykryte w obrazach z rys. 3.2.27 w okolicach nosa (punkty 40 i 41), oka lewego (punkty 44 i 44),

oraz oka prawego (punkty 22 i 23).

Rys. 3.2.29. Ilustracja dopasowania punktów kluczowych obrazu oryginalnego z punktami obrazu

pomniejszonego

Tabela 3.2.2. Wysokości słupków histogramów przynależności do klas wygenerowane na

podstawie metody 1-NN i algorytmu SIFT.

Wyniki identyfikacji przypadków za pomocą algorytmu SIFT w przykładowym

zadaniu rozpoznawania prezentowanym w rozdziale 3.2.1, gdzie zastosowano

transformację PCA, zawiera Tabela 3.2.2. Przedstawione w niej wysokości słupków

przypadek 1

przypadek 2

przypadek 3

przypadek 4

przypadek 5

klasa 1 0.06 0.11 0.09 0.08 0.02

klasa 2 0.02 0.09 0.11 0.06 0.02

klasa 3 0.04 0.27 0.10 0.06 0.02

klasa 4 0.04 0.26 0.08 0.12 0.02

klasa 5 0.84 0.27 0.62 0.68 0.92


77

histogramu przynależności do klas pozwalają na poprawną identyfikację w każdym

z rozpatrywanych przypadków, a więc również tam, gdzie zastosowanie algorytmu twarzy

własnych (por. tab. 3.2.1) dało niepoprawne wyniki.

3.2.3. Wyniki badań porównawczych – algorytm PCA vs. SIFT

Przedstawione w literaturze badania w obszarze zastosowań metod przetwarzania

obrazów w identyfikacji tożsamości koncentrują się w znacznej mierze na uzyskiwaniu

coraz niższych poziomów błędów rozpoznawania twarzy ze skończonego zestawu twarzy

wzorcowych reprezentujących zamknięty zbiór znanych osób, dostępny najczęściej

w jednej ze standardowych baz danych, np. FERET, Yale, AT&T i innych. Praktyczne

znaczenie metod weryfikowane jest jednak w zadaniu, w którym oddzielną klasę stanowi

klasa osób nieznanych i gdy jej wzorców, wobec ogromu możliwych przypadków, po

prostu nie ma. W niniejszej pracy, finalna ocena identyfikacji tożsamości za pomocą dwu

opisanych wyżej podejść, uwzględniająca szeroki zakres zmienności obrazów

i zmierzająca do opracowania i implementacji działających w trybie „on-line” algorytmów

przetwarzania obrazów, przeprowadzona została w kontekście takiego właśnie zadania.

Badania przeprowadzono na bazie danych powstałej z wykorzystaniem elementów

demonstratora na etapie osiągnięcia przez niego funkcjonalności automatycznej detekcji

obrazu twarzy. Baza objęła zbiór 82 osób o znanej tożsamości, dla których zarejestrowano

po 20 niezależnych fotografii. Przykłady uzyskanych obrazów przedstawione są na rys.

3.2.30.

Rys. 3.2.30. Przykładowe obrazy twarzy z bazy danych zarejestrowane opracowanym

demonstratorem technologii

Zasadniczy problem identyfikacji w systemie rozpoznawania osób jest problemem

klasyfikacji binarnej – badany nowy przypadek należy do bazy danych (np. osób

poszukiwanych) lub do niej nie należy. Powszechnym narzędziem stosowanym do oceny

takiego klasyfikatora w zadanych warunkach oraz wyboru progu decyzyjnego są krzywe

ROC [17],[31]. W dalszej części wykorzystane zostaną standardowe oznaczenia liczby

przypadków z obu kategorii poprawnie i niepoprawnie zaklasyfikowanych, których

zestawienie zawiera tab. 3.2.3.

Tabela 3.2.3. Macierz klasyfikacji – stan faktyczny i ilościowy wynik klasyfikacji

Stan

faktyczny

Wynik klasyfikacji

Osoba

nieznana

Osoba znana

(poszukiwana)

Osoba

nieznana (negative)

liczba TR

(true reject)

liczba FA

(false accept)

Osoba znana –

poszukiwana (positive)

liczba FR

(false reject)

liczba TA

(true accept)


78

Przy zastosowanych oznaczeniach oszacowaniem wartości prawdopodobieństwa

wykrycia osoby znanej pod warunkiem, że rzeczywiście należy ona do klasy osób znanych

będzie miara TAR (True Accept Rate), zdefiniowana jako

FRTA

TATAR

(3.2.37)

Oszacowaniem prawdopodobieństwa fałszywego alarmu, polegającego na

stwierdzeniu przynależności do bazy osób poszukiwanych w sytuacji gdy osoba jest

nieznana będzie wartość FAR (False Accept Rate), określona przez

TRFA

FAFAR

. (3.2.38)

Najczęściej stosowana postać krzywej ROC przedstawia zależność TAR od FAR

wyznaczoną przy założeniu, że próg decyzyjny przyjmuje kolejno wszystkie dostępne w

eksperymencie wartości atrybutu różnicującego, w tym przypadku prawdopodobieństwa.

W celu uniezależnienia otrzymanych wyników od zestawu obrazów użytych w analizie, do

badań zastosowano mechanizm wielokrotnego wykorzystania dostępnych danych

obrazowych. W każdym cyklu losowo wybierano osoby, które tworzyły rozłączne klasy

osób znanych. Spośród wszystkich obrazów twarzy każdej z tych osób losowano 15, które

trafiały do referencyjnej bazy danych, natomiast pozostałe służyły do przeprowadzenia

procesu identyfikacji. Postaci przykładowych uzyskanych krzywych ROC dla przypadku

gdy w bazie znajdują się obrazy twarzy 40 osób znanych przedstawione są na rys. 3.2.31.

Rys. 3.2.31. Porównanie krzywych ROC w procesie klasyfikacji binarnej przy zastosowaniu

przetwarzania obrazu za pomocą metody PCA i SIFT

Przedstawiony wynik wskazuje na znacznie wyższą efektywność wykorzystania

deskryptorów cech lokalnych obrazu w rozpoznawaniu w porównaniu z metodą twarzy

własnych. Przy zapewnieniu odpowiedniej liczby obrazów wzorcowych w bazie osób

znanych możliwe jest uzyskanie błędów rozpoznawania na poziomie pojedynczych

procent [19].

3.3. Rozpoznawanie głosu

Mowa jest naturalnym i jednym z najbardziej efektywnych sposobów komunikowania

się ludzi z otoczeniem. Pod nazwą automatyczne rozpoznawanie w odniesieniu do mowy

mieści się wiele różnych rozwiązań technicznych. Ich wspólną cechą jest przetwarzanie

sygnału mowy za pomocą urządzenia cyfrowego w celu wydobycia wymaganych dla

konkretnych zastosowań informacji.


79

Automatyczne rozpoznawanie głosów obejmuje dwie zasadniczo różniące się

procedury: identyfikację i weryfikację. Identyfikacja mówcy jest procesem decyzyjnym,

polegającym na określeniu tożsamości mówcy i wykorzystującym do tego wyłącznie

właściwości sygnału mowy (bez deklarowania przez mówcę tożsamości). Z kolei

weryfikacja to proces decyzyjny, wykorzystujący cechy sygnału mowy do określenia, czy

mówca danej wypowiedzi jest faktycznie osobą, której tożsamość deklaruje. Wynikiem

weryfikacji jest potwierdzenie lub odmowa potwierdzenia deklarowanej tożsamości.

Bardzo istotną charakterystyką systemów rozpoznawania mówców jest ich zależność

od wypowiadanego przez osobę rozpoznawaną tekstu, czyli od ograniczeń narzuconych na

materiał lingwistyczny wypowiedzi. Rozróżnia się systemy rozpoznawania mówców

zależne od tekstu (ang. text-dependent), w których zawartość lingwistyczna materiału

treningowego i testowego jest ogólnie taka sama oraz niezależne od tekstu (ang. text-

independent), gdy zdania testowe różnią się od zdań uczących przynajmniej pod względem

kolejności słów. W szczególności w tym przypadku dopuszcza się możliwość

rozpoznawania mówcy nawet niezależnie od języka wypowiedzi [25].

3.3.1. Model generacji sygnału mowy

Pierwotną i podstawową formą, w której rejestruje się sygnał mowy jest przebieg

czasowy. Dziedzina czasu nie jest jednak najwłaściwsza do przeprowadzania dalszych

operacji ponieważ sygnał mowy charakteryzuje się w niej bardzo dużą redundancją.

Znacznie efektywniejsze z punktu widzenia dalszej analizy jest przetransformowanie

sygnału do dziedziny częstotliwości. Jednym z głównych powodów takiego podejścia jest

próba naśladowania natury, która w toku milionów lat ewolucji wykształciła organ mowy

człowieka, w którym sygnał mowy jest generowany – a następnie odbierany i analizowany

przez organ słuchu – w dziedzinie częstotliwości.

W procesie generacji sygnału mowy bierze udział głośnia oraz trakt głosowy

obejmujący w szczególności jamę ustną i nosową oraz język i usta. Zasadniczą rolę

w procesie mówienia (i oddychania) odgrywają fałdy głosowe, często zwane strunami

głosowymi, a właściwie ich krawędzie czyli więzadła głosowe. Szparę pomiędzy

więzadłami nazywa się szparą głosową (szparą głośni), a wraz z przyległymi fałdami

głośnią. Podczas spokojnego oddychania oraz w czasie artykulacji bezdźwięcznych

elementów mowy więzadła są rozsunięte i powietrze swobodnie przepływa przez szparę

głośni. W czasie wymawiania głosek dźwięcznych więzadła, na skutek dochodzących do

nich impulsów nerwowych, na przemian zwierają się i rozwierają pod naporem sprężanego

powietrza. Obserwowana w tym czasie gołym okiem szpara pomiędzy fałdami głosowymi

jest złudzeniem optycznym spowodowanym bezwładnością wzroku ludzkiego, który nie

jest w stanie zarejestrować szybko następujących po sobie faz zamykania i otwierania

głośni. Obserwacja w zwolnionym tempie pokazuje, że więzadła zwierają się rytmicznie aż

do pełnego zamykania głośni. Proces generacji dźwięku krtaniowego nazywany bywa

fonacją (udźwięcznianiem). Określająca wysokość głosu liczba cykli zwarć i rozwarć

więzadeł na sekundę, zależy od ich długości, grubości i napięcia (a te od płci i wieku).

Wysokość głosu, a ściślej jego częstotliwość podstawowa zmienia się w trakcie mowy w

związku z naturalną intonacją i w przypadku głosu męskiego wynosi średnio 100-130 Hz,

a dla głosu żeńskiego osiąga średnią wartość równą 200-260 Hz [30]. Częstotliwość

podstawowa w mowie zmienia się od 60 do 200 Hz u mężczyzn i od 180 do 400 Hz u

kobiet [30].

Strumień powietrza tłoczony przez głośnię jest modyfikowany w trakcie przejścia

przez trakt głosowy, którego charakterystyka amplitudowo-częstotliwościowa

charakteryzuje się kilkoma maksimami nazywanymi formantami. Częstotliwości tych

maksimów są chwilowymi częstotliwościami rezonansowymi traktu głosowego


80

wynikającymi z bieżącego stanu procesu artykulacji. Przyjmując, że dla quasi-

stacjonarnych fragmentów mowy trakt głosowy jest układem liniowym niezmiennym

w czasie, sygnał mowy s(t) można przedstawić jako splot impulsowego pobudzenia

generowanego w głośni e(t) i odpowiedzi impulsowej traktu głosowego h(t)

)()()( thtets (3.3.1)

Ponieważ transformata Fouriera równomiernie poprzesuwanych impulsów Diraca

n

nTtt 0III (3.3.2)

jest także sumą impulsów Diraca

0

000

2;

Tm

m

(3.3.3)

to widmo dźwięku krtaniowego jest ciągiem impulsów, przy czym jeśli odstęp impulsów

w dziedzinie czasu wynosi T0, to odstęp w dziedzinie częstotliwości wynosi F0 = 1/T0.

Przyjęcie liniowego modelu traktu głosowego, w którym pobudzenie splata się

z odpowiedzią impulsową filtru w dziedzinie czasu pozwala – w świetle (3.3.2) i (3.3.3) –

na stwierdzenie, że widmo fragmentów mowy dźwięcznej jest iloczynem rozłożonych

w odstępie F0 na osi częstotliwości impulsów Diraca (idealizowane widmo impulsów

emitowanych z głośni) i transmitancji traktu głosowego. Skończony czas otwarcia głośni

w trakcie fonacji uwzględniany jest w rozważaniach teoretycznych w postaci dodatkowego

członu w transmitancji traktu głosowego. Podczas praktycznych badań sygnału mowy,

fragmenty sygnału wycinane są za pomocą wybranej funkcji okienkującej, której widmo

splata się z widmowymi impulsami Diraca i w konsekwencji w miejscu spodziewanych

impulsów Diraca pojawia się powielone na każdym z nich widmo okna, co zilustrowano na

rys. 3.3.1.

a) b)

Rys. 3.3.1. Widmo głoski e wypowiadanej głosem męskim: a) okno prostokątne, b) okno

Hanninga.

Na rys. 3.3.2 oraz rys. 3.3.3 przedstawiono odpowiednio widma amplitudowe głoski a

i głoski e wypowiadanych przez mężczyznę i kobietę. Łatwo zauważyć, a ściśle

potwierdziły to przeprowadzone badania wstępne, że na podstawie widma amplitudowego

łatwiej jest odróżnić wypowiadane głoski niż mówców. Istotną informacją rozróżniającą

mówców jest częstotliwość podstawowa dźwięku, która – co oczywiste w przypadku

porównywania wypowiedzi mężczyzny i kobiety – może ewentualnie posłużyć jako

parametr różnicujący. Jednak w przypadku porównania np. dwóch mężczyzn jest to

informacja o niewielkiej użyteczności, tym bardziej, że częstotliwość podstawowa

fluktuuje w takt intonacji zdania.


81

Na rys. 3.3.2 oraz 3.3.3 wyraźnie widoczna jest okresowość widma wynikająca

z impulsów dźwięku krtaniowego, można więc obliczyć odwrotną transformatę Fouriera

z modułu widma i na jej podstawie wyznaczyć okres podstawowy pobudzenia

krtaniowego. Ponieważ jednak sygnał jest zmodulowany w amplitudzie przez funkcję

przenoszenia traktu głosowego, korzystniej jest wyznaczyć najpierw logarytm z modułu

widma, a dopiero potem poddać go odwrotnej transformacji Fouriera, gdyż w ten sposób

multiplikatywny związek pobudzenia i traktu głosowego zastąpiony zostanie związkiem

addytywnym, co znacznie upraszcza późniejszą separację obu składników.

a) b)

Rys. 3.3.2. Widma głosek a wypowiadanych: a) głosem męskim, b) głosem żeńskim; zastosowano

okno Hanninga

a) b)

Rys. 3.3.3. Widma głosek e wypowiadanych: a) głosem męskim, b) głosem żeńskim; zastosowano

okno Hanninga

Jedną ze szczególnych metod parametryzacji jest analiza cepstralna opierająca się na

tzw. technice homomorficznej. Cepstrum zespolone zdefiniowane jest następująco

txtcz FF ln1 (3.3.4)

Ponieważ obliczanie logarytmu zespolonego wiąże się z komplikacjami wynikającymi

z konieczności zapewnienia ciągłości fazy, a w przypadku sygnału mowy zasadnicza

informacja zawarta jest w amplitudzie widma, w praktyce wyznacza się najczęściej tzw.

cepstrum rzeczywiste, formalnie zdefiniowane następująco

tstc FF ln1 (3.3.5)


82

co dla sygnałów dyskretnych sprowadza się do postaci

nwnsDFTIDFTnc ln (3.3.6)

i ostatecznie

1

0

2j1

0

2j1

0

2j

eeln1

e1 N

m

N

mnN

n

N

mnN

m

N

mn

nwnsN

mCN

nc (3.3.7)

Ze względu na okresowość jądra transformaty Fouriera, logarytm z modułu widma

amplitudowego C(m) jest okresowy i jednocześnie spełnia zależność

mNCmCmC (3.3.8)

Jest więc funkcją parzystą (symetria względem osi rzędnych), a zatem w jego rozwinięciu

występują tylko funkcje kosinusoidalne (parzyste). Nie ma więc znaczenia czy w ostatnim

etapie zastosuje się prostą czy odwrotną transformację Fouriera, czy po prostu tylko

transformację kosinusową. Pozwala to na prostą interpretację cepstrum rzeczywistego jako

widma zlogarytmowanego widma amplitudowego [22, 29].

Obserwując widmo amplitudowe sygnału mowy można łatwo zauważyć, że jest ono

złożone z czynnika szybkozmiennego wynikającego z pobudzenia i wolnozmiennego,

modulującego amplitudy kolejnych impulsów wynikających z pobudzenia. Podobnie

wygląda interpretacja logarytmu widma amplitudowego, przy czym tu składowa

wolnozmienna nie wymnaża się z amplitudami poszczególnych impulsów pochodzących

od pobudzenia tylko się do nich dodaje. Obliczenie widma takiego sygnału powoduje, że

wolnozmienne przebiegi związane z transmitancją traktu głosowego są położone blisko

zera na osi pseudoczasu, a impulsy związane z dźwiękiem krtaniowym zaczynają się mniej

więcej w okolicach okresu sygnału krtaniowego i powtarzają się co ten okres.

Rys. 3.3.4. Moduły cepstrum rzeczywistego głosek a i e, a) głosem męskim, b) głosem żeńskim.

a) b)


83

Cepstra rzeczywiste odpowiadające widmom z rys. 3.3.2 oraz rys. 3.3.3 przedstawione

są na rys. 3.3.4. Informacja związana z transmitancją traktu głosowego jest skupiona

w okolicy czasu zerowego, a zatem w tym obszarze należy poszukiwać zwięzłej informacji

na temat tego co jest mówione.

Natomiast dla czasów powyżej okresu dźwięku krtaniowego informacja o tym co jest

mówione jest zminimalizowana, pozostaje jedynie czytelna informacja dotycząca dźwięku

krtaniowego. Ponieważ dźwięk krtaniowy związany jest ściśle z budową anatomiczną

krtani i głośni, jest wiec zarazem dobrym nośnikiem informacji osobniczej. Łatwo zatem

zauważyć przydatność cepstrum rzeczywistego do celów rozpoznawania mówcy –

informacje o wypowiadanej głosce zacierają się, natomiast zarysowuje się wyraźne

zróżnicowanie w zależności od mówcy.

Automatyczne rozpoznawanie mówcy zwane także automatycznym rozpoznawaniem

głosów, jest procesem realizującym szereg reguł decyzyjnych na mierzalnych cechach

sygnału mowy, mających na celu określenie czy dana wypowiedź należy do określonego

mówcy lub zbioru mówców. Procedurę rozpoznawania osób można podzielić na trzy etapy

(rys. 3.3.5). Blok przetwarzania wstępnego odpowiada za odbiór sygnału z mikrofonu oraz

jego wstępne przetworzenie, uwzględniające poprawę jakości sygnału. W drugim etapie

następuje analiza sygnału mowy, w wyniku, której otrzymuje się wartości parametrów

niosących informację o indywidualnych cechach głosu mówcy niezależne od treści

wypowiedzi. Ostatni etap klasyfikacji dokonuje się na podstawie podobieństwa

uzyskanych parametrów próbek sygnału do ich odpowiedników określonych wcześniej

(w tzw. procesie nauczania) dla poszczególnych osób. Wynikiem działania systemu jest

binarna decyzja o rozpoznaniu mówcy, bądź też jego odrzuceniu [24].

Rys. 3.3.5. Schemat procedury rozpoznawania mówców

3.3.2. Baza danych głosowych

Punktem wyjścia dla automatycznych systemów rozpoznawania mówcy jest przede

wszystkim posiadanie wzorcowej bazy głosów, która będzie wykorzystywania w procesie

uczenia. Aby stworzyć tego typu bazę w pierwszej kolejności należy sporządzić pewnego

rodzaju scenariusz nagrań. Z uwagi na to, że zgodnie z przyjętymi założeniami wynikowy

system ma być systemem niezależnym od treści wypowiedzi, scenariusz powinien

zawierać kilka różnorodnych wypowiedzi dla każdego mówcy. Prezentowany materiał

dotyczy przypadku, w którym na całość scenariusza składały się 4 teksty. Część I to tekst

o charakterze typowego dialogu, jaki może być przeprowadzany np. podczas odprawy

celnej na lotnisku. Zawarte są w nim typowe pytania o dane osobowe podróżującego, cel

podróży czy przewidywaną długość pobytu w danym kraju. Podawane przez badającego


84

dane są w całości fikcyjne. Część II to tekst o charakterze oficjalnym. Część III

scenariusza to tekst przygnębiający. Ostatnią część scenariusza jest tekst o charakterze

żartobliwym − badany ma za zadanie odczytanie dowcipu, z charakterystycznym dla

każdego mówcy intonowaniem poszczególnych wyrazów. Dzięki zastosowaniu otrzymano

szereg wypowiedzi znacznie różniących się pod względem intonacji o charakterze

zbliżonym do spodziewanych wypowiedzi identyfikowanych w przyszłości osób.

Całkowita długość wszystkich nagrań wynosiła około 4 minut.

Rejestracji czasowych przebiegów sygnału akustycznego mowy dokonano

w Instytucie Systemów Elektronicznych Wydziału Elektroniki WAT z zastosowaniem

mikrofonu dynamicznego Monacor DM-500, karty dźwiękowej komputera oraz

oprogramowania Matlab. Przestrzenne zmiany ciśnienia akustycznego generowane przez

mówcę rejestrowane są w pewnym punkcie przestrzeni za pomocą mikrofonu, którego

zadaniem jest zamiana ciśnienia akustycznego na napięcie. O warunkach rejestracji

decydują charakterystyki mikrofonu i przetwornika A/C. Pożądane jest, aby ich jakość

była wystarczająco dobra i aby elementy te nie miały znaczącego wpływu na strukturę

zarejestrowanego sygnału. Podczas badania, odległość mikrofonu od ust osoby mówiącej

wynosiła ok. 10 cm. Dodatkowo mikrofon został wyposażony w osłonę, która zapobiegała

zniekształceniom towarzyszącym sybilantom (tzw. głoski świszczące: s-, sz-, cz-, ć-)

i głoskom wybuchowym (p-, b-, t). Grupa biorąca udział w doświadczeniu składała się

z 45 mężczyzn i 15 kobiet.

W opisywanych w literaturze opracowaniach stosowane są różne strategie dotyczące

wyboru częstotliwości próbkowania. Mniejsza częstotliwość próbkowania oznacza

mniejszą liczbę danych do przetworzenia, ale utratę części informacji. Większa

częstotliwość próbkowania z kolei oznacza więcej danych i niekoniecznie lepszą jakość

rozpoznawania. Projektując system rozpoznawania mówcy należy znaleźć kompromis

między wiernością zapisu sygnału, w kontekście zachowania cech osobniczych, a ilością

danych zajmujących pamięć komputera i wpływających na szybkość obliczeń. Badania

pilotażowe przeprowadzono z sygnałami próbkowanymi z częstotliwościami 44100 Hz,

22050 Hz i 11025 Hz i w ich rezultacie przyjęto wartość 22050 Hz, przy 16-to bitowej

rozdzielczości amplitudowej oraz rejestracji jednokanałowej (monofonicznej).

Z zarejestrowanego materiału badawczego została utworzona baza danych zawierająca

identyfikator mówcy oraz odpowiadające mu próbki sygnału akustycznego.

3.3.3. Przetwarzanie wstępne

Wstępne przetwarzanie sygnału mowy jest bardzo ważnym etapem obróbki danych,

ponieważ poprzedza wprowadzenie sygnału do generatora cech i ma fundamentalne

znaczenie dla jakości procesu identyfikacji mówcy. Głównym celem wstępnej obróbki

sygnału mowy jest jak największe uniezależnienie zarejestrowanych sygnałów

akustycznych od ustawień sprzętu nagrywającego. Na tym etapie przeprowadzana jest

filtracja, a także normalizacja, gdyż te dwie procedury w dużym stopniu niwelują różnice

wynikające z różnych charakterystyk częstotliwościowych torów pomiarowych oraz

z różnych poziomów głośności. W aplikacji zastosowano cyfrowy filtr pasmowo-

przepustowy o skończonej odpowiedzi impulsowej. Zakładając brak zniekształceń

i zakłóceń sygnału pominięto kwestie dotyczące tłumienia odbić, zakłóceń i szumów.

Sygnał mowy jest sygnałem o zmiennej w czasie strukturze częstotliwościowej,

dlatego parametryzacji poddawane są kolejne fragmenty sygnału, a nie sygnał jako całość.

Fragmenty na jakie dzielony jest sygnał nazywane są ramkami (rys. 3.3.6). Najczęściej

długość ramki ∆t powiązana jest z jej przesunięciem (skokiem) τ, zależnością

t3

1 (3.3.9)


85

Rys. 3.3.6. Ilustracja przesunięcia ramki – przedstawiono dwa sąsiednie położenia ramki

Jednym z pierwszych zadań jest ustalenie podstawowego parametru generatora cech –

długości ramki. Czasy trwania poszczególnych jednostek fonetycznych są różne i zależne

od określonego mówcy. Jednostki składające się z głosek dźwięcznych charakteryzują się

czasem trwania z przedziału od 10 ms do nawet 200 ms [21]. Zakres zmienności jest więc

znaczny i decyzja dotycząca wyboru długości ramki jest niezmiernie ważna

w projektowanym systemie ASR. Badania dotyczące optymalizacji poszczególnych

parametrów generatora cech przedstawione są w kolejnym podrozdziale.

Podział sygnału na ramki powoduje powstawanie nieciągłości w przetwarzanym

sygnale, co wiąże się ze zjawiskiem przecieku częstotliwości. Aby zminimalizować to

zjawisko sygnał z każdej ramki należy poddać procesowi okienkowania, czyli wymnożenia

przez odpowiednią funkcję okna. Dzięki temu następuje wygładzenie nieciągłości

i usunięcie z widma fałszywych składowych. Zastosowano charakteryzujące się dobrymi

właściwościami okno Hamminga

NnN

nnw

0;

2cos46,054,0)( (3.3.10)

Ze względu na to, że istotna informacja związana z mówcą i niesiona przez dźwięk

krtaniowy zawarta jest w dźwięcznych fragmentach mowy podczas analizy należy brać

pod uwagę jedynie „ramki dźwięczne”. Fragmenty dźwięczne charakteryzują się

regularnym występowaniem maksimów (co okres tonu podstawowego), w przeciwieństwie

do fragmentów bezdźwięcznych, które przypominają sygnał aperiodyczny. Klasyfikacja

fragmentów sygnału mowy na dźwięczne i bezdźwięczne dokonywana jest w systemie za

pomocą funkcji autokorelacji. Aby sprawdzić, czy analizowana głoska jest dźwięczna

należy wyznaczyć drugie istotne maksimum i sprawdzić jego poziom (pierwsze maksimum

występuje oczywiście dla przesunięcia zerowego). Jeżeli jest ono większe od pewnej

wartości odniesienia pv to dany fragment należy uznać za dźwięczny, w przeciwnym

przypadku za bezdźwięczny. Ustalenie optymalnego progu pv to kolejny fragment

procedury optymalizacyjnej opisanej w kolejnym rozdziale.

Dodatkowym ograniczeniem zastosowanym w systemie przy wyborze tzw.

reprezentatywnych dla danego mówcy ramek jest detekcja aktywności mówcy. W trakcie

rejestracji pojawiają się często fragmenty sygnału, podczas których mówca nie jest

aktywny. Zastosowanie kolejnego parametru odpowiadającego za odrzucenie ramek tego

typu ma na celu przede wszystkim eliminację ciszy z nagrania oraz odrzucenie ramek

będących potencjalnie szumem, a więc takich, które mogą powodować błędną ekstrakcje

cech. W takim podejściu w pierwszej kolejności należy określić statystykę sygnału P(n),

na podstawie której będzie dokonywana selekcja, a następnie zastosować kryterium

decyzyjne. Zwykle dokonuje się odniesienia wartości P(n) do pewnego ustalonego progu.


86

W zależności od wielkości na jakiej bazuje selekcja, algorytmu jej wyznaczania oraz

wartości progu, wyniki selekcji będą różne. Zdecydowano się oprzeć na wartości mocy

składowej zmiennej, czyli na wariancji sygnału. Ustalenie dodatkowego parametru, jakim

jest próg mocy pp było więc kolejnym zadaniem optymalizacji wielokryterialnej, który

opisany został w kolejnym rozdziale.

3.3.4. Generacja deskryptorów numerycznych

Automatyczne rozpoznawanie mówcy wymaga stworzenia opisu numerycznego

sygnału mowy w postaci odpowiednio zdefiniowanych deskryptorów jak najlepiej

charakteryzujących mówcę. Tak wygenerowane cechy lepiej lub gorzej opisują głos ludzki

pod względem rozróżniania mówców. Po odpowiedniej selekcji posłużyły one do

stworzenia wektora cech, na podstawie którego dokonywana jest klasyfikacja

(identyfikacja, weryfikacja). Zdecydowano się poszukiwać cech dystynktywnych

uwzględniając zjawiska związane z wewnętrzną strukturą źródła sygnału mowy.

Z punktu widzenia systemu rozpoznawania mówcy najważniejszym etapem jest

generacja odpowiedniego zestawu deskryptorów numerycznych, jak najlepiej

charakteryzujących rozpoznawanych mówców. Celem parametryzacji sygnału mowy na

potrzeby ASR jest takie przekształcenie czasowego przebiegu wejściowego, by uzyskać

możliwie małą liczbę deskryptorów zawierających informacje istotne dla danego mówcy,

przy jednoczesnej minimalizacji ich wrażliwości na zmienność sygnału nieistotną z punktu

widzenia ASR. Wyboru tych deskryptorów dokonano kierując się analizą przedstawionego

wyżej procesu generacji mowy i poszukując elementów związanych z cechami

osobniczymi.

W prezentowanym podejściu generacja cech polega na tworzeniu deskryptorów

w oparciu o trzy techniki wywodzące się z analizy cepstralnej. W każdej z metod najpierw

dokonuje się wstępnej preselekcji cech, a następnie fuzji wszystkich wygenerowanych

deskryptorów.

3.3.4.1. Cechy cepstralne

Klasyczna metoda rozplotu cepstralnego, w przypadku analizy pod kątem

rozpoznawania mówcy, polega więc na usunięciu niepożądanego składnika poprzez

wyzerowanie próbek cepstrum dla pseudoczasu w okolicach zera. Widmo amplitudowe

sygnału mowy złożone jest z czynnika szybkozmiennego (wynikającego z pobudzenia)

oraz czynnika wolnozmiennego (wynikającego z bieżącej konfiguracji narządów

artykulacyjnych) modulującego amplitudę impulsowego sygnału pobudzenia.

Na podstawie wnikliwej analizy cepstrum wywnioskowano, że jako cechy

charakterystyczne należy wybrać częstotliwość podstawową mówcy, która jest

odwrotnością pierwszego maksimum cepstrum (zerowe maksimum występuje dla zerowej

wartości pseudoczasu) oraz wartości 4 kolejnych maksimów unormowane do wartości

pierwszego maksimum.

3.3.4.2. Cechy melcepstralne

Najbardziej popularną metodą parametryzacji sygnału mowy jest metoda

wykorzystująca współczynniki MFCC (Mel-Frequency Cepstrum Coefficients). Jest to

metoda oparta na analizie podpasmowej sygnału filtrami pasmowo-przepustowymi

rozłożonymi równomiernie na melowej skali częstotliwości. Istotną różnicą tej

transformacji jest przeliczenie widma ze skali liniowej na skalę melową, która pozwala na

uwzględnienie nieliniowości postrzegania częstotliwości dźwięku przez człowieka, jak


87

również na znaczną redukcję danych. Ogólny schemat tej metody pokazany jest na rys.

3.3.7 [26].

Rys. 3.3.7. Schemat procedury obliczania współczynników MFCC

Pierwszym etapem wyznaczania MFCC jest obliczenie dyskretnego widma kolejnej

reprezentatywnej ramki sygnału za pomocą szybkiej transformaty Fouriera − FFT.

Następnie widmo to jest poddawane filtracji za pomocą filtrów o charakterystykach

inspirowanych fizjologią ludzkiego słuchu. Ucho człowieka reaguje nieliniowo na

częstotliwości odbieranego dźwięku. Szczegóły mowy są łatwiej wykrywalne w zakresie

niskich częstotliwości (do około 1 kHz) niż w zakresie wyższych częstotliwości

słyszalnego spektrum. Wynika z tego, że im wyższa częstotliwość tym gorsza dokładność

i dla kompensacji tego zjawiska niezbędne są szersze pasma. Skala mel została

wyznaczona empirycznie i jest określona zależnością [23]

700

]H[1ln1127]mel[

zff (3.3.11)

W celu nieliniowego przekształcenia widma tworzony jest zbiór filtrów dla kolejnych

zachodzących w połowie na siebie pasm częstotliwości, rozmieszczonych równomiernie

w nieliniowej skali mel. Filtry o kształcie trójkątnym zdefiniowane są w dziedzinie

częstotliwości, co pozwala na wyznaczenie ich odpowiedzi jako sumy iloczynów modułu

widma i przebiegu funkcji trójkątnej. Wektor sygnałów z wyjść wszystkich filtrów jest

logarytmowany, a następnie poddawany dyskretnej transformacji kosinusowej. Otrzymany

wektor MFCC ma długość równą liczbie pasm.

Na etapie generacji cech melcepstralnych zdecydowano się zastosować 30 filtrów

w wyniku czego otrzymano 30 cech dystynktywnych, tj. zastosowano 30 filtrów w paśmie

od zera do połowy częstotliwości próbkowania. Pojawił się więc problem ustalenia, które

z cech MFCC są reprezentatywne jedynie dla wymawianego dźwięku, a które dla samego

mówcy. Cechy powiązane są z treścią lingwistyczną wypowiedzi nie powinny być brane

pod uwagę i podobnie jak w przedstawionej wyżej metodzie rozplotu cepstralnego należy

poszukiwać cech o indeksach wyższych od pewnej wartości granicznej. Zastosowano więc

wstępną preselekcję cech zmniejszając przy tym liczbę elementów wektora MFCC do 7,

przy jednoczesnym minimalizowaniu spadku jego reprezentatywności, kontrolując wyniki

w oparciu o analizę PCA. Metodę tę zastosowano z uwagi na duży początkowy wymiar

wstępnego wektora cech MFCC. Zobrazowanie 30 − wymiarowego wektora cech MFCC

na płaszczyźnie umożliwiło sprawną wstępną preselekcję cech, istotnych z punktu

widzenia modelowanego generatora cech.

3.3.4.3. Ważone cechy cesptralne

Inspiracja ideą metody MFCC spowodowała, że postanowiono rozszerzyć wektor cech

o kolejne cechy określone w dziedzinie cepstrum poprzez zastosowanie w podpasmach

filtrów sumujących. Opracowany algorytm nie poszukuje samych maksimów w pasmach

ich przewidywanego położenia, ale sumuje amplitudy wszystkich prążków z tych pasm

z określoną wagą. Dobór optymalnej charakterystyki filtru (funkcji wagowej) oraz

szerokości pasm były jednym z zadań optymalizacyjnych systemu. W wyniku

optymalizacji wybrano funkcję prostokątną. Jako 4 ważone cechy cepstralne zdefiniowano


88

sumy w czterech kolejnych pasmach począwszy od drugiego, unormowane do sumy

otrzymanej w paśmie pierwszym, odpowiadającym częstotliwości podstawowej.

Na etapie generacji cech zdefiniowano więc 16 deskryptorów numerycznych c1-c16

różnicujących mówców. Należą do nich: częstotliwość podstawowa Fav (c1) będąca

odwrotnością położenia pierwszego maksimum cepstrum, cztery ważone cechy cepstralne

(c2-c5), cztery kolejne maksima cepstrum unormowanego (c6-c9) oraz siedem cech mel-

cepstralnych (c10-c16). Dla każdego mówcy dokonywano uśredniania cech w zbiorze

reprezentatywnych ramek.

3.3.5. Wielokryterialna optymalizacja systemu

W poprzednim rozdziale przedstawiono ogólny schemat projektowanego systemu oraz

metodę generacji cech dla systemu ASR. W zależności od tego, jaką funkcję ma spełniać

dany system (rozpoznawanie treści wypowiedzi bądź tożsamości mówcy), należy dobrać

optymalne parametry układu, uwzględniając przyjętą procedurę ekstrakcji wektora cech

oraz tryb rejestracji. Zadanie polegało na optymalizacji systemu w oparciu o 4 zasadnicze

parametry: długość ramki (∆t) oraz jej przesunięcie (τ), próg dźwięczności ramki (pv)

i próg minimalnej mocy (pp). Optymalizacja systemu odbywała się równolegle z selekcją

cech.

Ze względu na szerokie zakresy zmian wszystkich optymalizowanych parametrów

postanowiono w pierwszej kolejności dokonać wstępnego wyboru wartości parametrów

w oparciu o współczynniki istotności Fischera definiowane zależnością

ji

ji

ij

ccfF

)( (3.3.12)

gdzie ci i cj są wartościami średnimi i-tej i j-tej cechy, natomiast σi oraz σj ich

odchyleniami standardowymi [20].

Obliczeń współczynników istotności Fischera dokonano dla 16 scharakteryzowanych

wyżej deskryptorów, wśród których wyróżniono podklasy kobiet i mężczyzn.

Uwzględnienie w podziale kobiet i mężczyzn nie jest przypadkowe. Należy zwrócić

uwagę, na fakt, iż wartość danego deskryptora może mieć dużą siłę dyskryminacyjną

pomiędzy poszczególnymi kobietami, lecz znacznie mniejszą wśród mężczyzn. Z tego

powodu obliczeń współczynników istotności Fischera dokonano w trzech podklasach:

Kobiet, Mężczyzn oraz w podklasie Wszyscy. Ponieważ klas jest więcej niż dwie,

współczynniki istotności Fischera obliczono dla wszystkich par oraz wyznaczono ich sumę

(sumaryczny współczynnik istotności Fischera). W 1 etapie parametrem optymalizowanym

była długość ramki (∆t). Uzyskane wyniki zobrazowano na rys. 3.3.8.

Z wykresu wyraźnie widać, że dla małej długości ramki (30-40 ms) współczynniki

Fischera są niewielkie. Zdecydowany przyrost następuje w okolicach 40 ms, a dla długości

ramki przekraczającej 90 ms wartości współczynników w podklasach Kobiety i Wszyscy

znacząco spadają. Należało więc dokonać wyboru czasu trwania ramki z przedziału od 40

do 80 ms. Warto podkreślić, fakt, że nie istnieje taka długość ramki, dla której

współczynniki istotności Fischera osiągają maksimum we wszystkich trzech podklasach,

dlatego należało dokonać pewnego wyboru kompromisowego. Wstępnie zdecydowano się

na wartość 55 ms, ale o końcowej wartości tego parametru, jak i wszystkich innych

decydowała również późniejsza selekcja cech, ponieważ generalnie obserwuje się

wzajemne oddziaływanie obydwu tych etapów, w wyniku czego obydwa procesy były

wielokrotnie powtarzane w celu uzyskania optymalnego rozwiązania.


89

Rys. 3.3.8. Wykres sumarycznej miary Fischera dla poszczególnych podklas w zależności od

długości ramki analizowanego sygnału.

Kolejnym parametrem, który należało poddać optymalizacji był krok (τ), z jakim

realizowane jest przesuwanie ramki wzdłuż analizowanego sygnału mowy. Podczas

rozwiązania tego problemu należy uwzględnić fakt, że mniejsza wartość przesunięcia daje

większą liczbę ramek, co przekłada się na wydłużenie czasu obliczeń. Poszukiwanie

optymalnej wartości przesunięcia ramki odbywało się jednocześnie z optymalizacją dwóch

pozostałych parametrów (pv oraz pp). Ze względu na dużą ilość informacji zawartej

w danych wejściowych, jakimi w rozważanym przypadku są 11-wymiarowe wektory cech,

zdecydowano się na optymalizację w oparciu o analizę składników głównych (ang.

Principal Component Analysis – PCA). Jak to przedstawiono wcześniej, istotą tej metody

jest zamiana dużej ilości informacji zawartej we wzajemnie skorelowanych danych

wejściowych w zbiór statystycznie nieskorelowanych składników uszeregowanych według

ich ważności. Był to jeden z najbardziej pracochłonnych etapów badań. Prace polegały na

obserwacji zmian położenia wektorów cech poszczególnych mówców na płaszczyznach

PCA1/PCA2 i PCA3/PCA4. Badań dokonano w oparciu o trzy 8-mio osobowe zbiory

mówców [27].

Zgodnie z literaturą wyznaczanie częstotliwości podstawowej metodą cepstralną jest

mniej dokładne, lecz bardziej niezawodne niż metodą autokorelacyjną, w szczególności

przy silnie zaszumionym sygnale mowy [21]. W poszukiwaniu możliwości uzyskania

większej stabilności deskryptorów zastosowano dodatkowe ograniczenie przy wyborze

poprawnych ramek, polegające na porównaniu wartości częstotliwości podstawowej

otrzymanej w oparciu o funkcję autokorelacji oraz w oparciu o cepstrum. Ostatecznie

ustalono, że jeżeli różnice pomiędzy wartościami częstotliwości podstawowej ramki,

wyznaczonymi za pomocą tych dwóch metod różnią się o więcej niż 15%, ramka taka

zostaje automatycznie odrzucona i nie bierze udziału w generacji deskryptorów. Zbiór

zoptymalizowanych wartości parametrów generatora cech określony dla 15 sekundowych

wycinków głosu w oparciu o opracowany generator cech wraz z opisaną w kolejnym

rozdziale selekcją cech przedstawiono w tab. 3.3.1.

Sum

ary

czna m

iara

Fis

chera

Długość ramki analizowanego sygnału [ms]

Kobiety Mężczyźni

Wszyscy


90

Tabela 3.3.1. Zoptymalizowane wartości parametrów generatora cech

Parametr Wartość

Długość ramki ∆t 45 ms

Przesunięcie ramki 10 ms

Próg dźwięczności pv 10%

Próg mocy pp 20%

Próg różnic częstotliwości

podstawowej pf 15%

3.3.6. Selekcja cech

Zdefiniowane na etapie generacji cech deskryptory stanowią maksymalny zbiór

potencjalnych cech dystynktywnych, które mogą być wykorzystane w systemie

automatycznego rozpoznawania wzorca reprezentującego badany obiekt. Badania

prowadzone na świecie pokazują, że nie zawsze użycie maksymalnego zestawu cech

prowadzi do najlepszych wyników, gdyż nie są one jednakowo ważne w procesie

rozpoznania wzorców. Pewne cechy mogą mieć postać szumu pomiarowego pogarszając

możliwość rozpoznania danego mówcy, natomiast cechy silnie skorelowane mają zwykle

niekorzystny wpływ na jakość klasyfikacji dominując nad innymi i tłumiąc w ten sposób

ich korzystny wpływ. Ważnym elementem procesu staje się zatem ocena jakości

deskryptorów i zastosowanie metod selekcji przy tworzeniu optymalnego wektora cech

[25].

W badaniu jakości cech można wyróżnić dwie strategie. W pierwszej bada się każdą

cechę niezależnie od zastosowanej metody klasyfikacji (tzw. filtrowanie cech) oceniając

ich jakość pod kątem różnicowania klas bez uwzględnienia konkretnego klasyfikatora.

Druga to selekcja oparta na ścisłej współpracy z klasyfikatorem. Zdecydowano się na

filtrowanie cech, ponieważ na bieżącym etapie badań nie podjęto jeszcze ostatecznej

decyzji o wyborze konkretnego klasyfikatora [28].

Rys. 3.3.9. Wykres sumarycznego współczynnika istotności Fischera poszczególnych

deskryptorów

Dla uzyskania dokładnej informacji opisującej numeryczne właściwości

dyskryminacyjne poszczególnych parametrów charakteryzujących mówców postanowiono

wstępnie zastosować selekcję opartą na metodzie Fischera [20]. Zgodnie z jej założeniami,

0

0,2

0,4

0,6

0,8

1

1,2

1 3 9 8 11 16 15 14 4 13 7 5 10 2 12 6

War

tość

mia

ry F

isch

era

numer deskryptora


91

duża wartości sumarycznego współczynnika istotności Fischera oznacza dobrą zdolność

dyskryminacyjną cechy pomiędzy klasami, a mała oznacza, że wartości cechy należące do

obu klas są rozproszone i potencjalnie przemieszane ze sobą, co dyskwalifikuje ją jako

cechę diagnostyczną. Sumaryczne współczynniki istotności Fischera poszczególnych

deskryptorów przedstawione są na rys. 3.3.9.

Na podstawie otrzymanych wyników trudno jednoznacznie określić, optymalny zbiór

cech wnoszących istotną informację różnicującą. W takim przypadku dodatkowym

rozwiązaniem może stać się analiza rozkładu danych zrzutowanych na dwa główne

składniki w analizie PCA, przy uwzględnieniu różnej liczby znaczących deskryptorów.

Przy stosowaniu tej metody należy pamiętać o normalizacji, czyli sprowadzeniu wartości

wszystkich cech do zbliżonych poziomów. Normalizacja taka może zostać zrealizowana na

wiele różnych sposobów. W przeprowadzonych badaniach cechy zostały unormowane do

wartości maksymalnej ze zbioru wszystkich wartości danego deskryptora.

Niezależnie od sumacyjnej wartości dyskryminacyjnej poszczególnych cech budując

każdy automatyczny system klasyfikacji warto sprawdzić siłę dyskryminacyjną

deskryptorów pracujących w zespole ponieważ często okazuje się, że uwzględnienie

równoległego działania wielu cech na raz może zmienić jakość danej cechy. Pewne cechy

(nawet te gorsze) współpracując ze sobą wzbogacają się nawzajem podnosząc swoja siłę

dyskryminacyjną [25] Przeprowadzono taką analizę śledząc zmiany położeń

poszczególnych wektorów określających mówcę na płaszczyźnie PCA1/PCA2. Na rys.

3.3.10 przedstawiono 2 przykłady takiego rozkładu. Rys. 3.3.10.a dotyczy pełnego zbioru

cech, natomiast rys. 3.3.10.b wyselekcjonowanego zbioru deskryptorów ograniczonego do

11 najlepszych.

Rys. 3.3.10. Rozkład danych zrzutowanych na 2 najważniejsze składniki główne; a) pełny zbiór

deskryptorów, b) zbiór wyselekcjonowanych 11 cech

Na podstawie obliczonych miar Fischera oraz obserwacji zmian położenia wektorów

cech w oparciu o transformację PCA, określono optymalny 11-wymiarowy wektor cech

VP (Voice Print). Dla każdego mówcy uśredniano wyselekcjonowany zbiór cech w oparciu

o 15 sekundowe fragmenty zarejestrowanej wypowiedzi, uwzględniając jedynie poprawne

ramki wybrane na etapie wstępnego przetwarzania (m.in. odrzucano fragmenty ciszy

i fragmenty bezdźwięczne). W wyniku zastosowania generatora cech dla każdego mówcy

uzyskano osiem wektorów VP z 15 sekundowych fragmentów wypowiedzi rozłożonych

równomiernie w przedziale od zera do 4 minut. Optymalny VP opisany jest zależnościami

[28]:

a) b)


92

17,15,13,12,111

9,61

5,3,21

,1

,

1

117

1

,64

1

,32

1

1

imcN

c

icN

c

icN

c

FN

Fc

ji

N

j

N

j

dp

dpj

ji

N

j

ji

N

j

jav

(3.3.13)

gdzie: N – liczba reprezentatywnych ramek,

Fj – częstotliwość podstawowa j-tej ramki, wyznaczana z cepstrum

rzeczywistego,

ci, j – wartość i-tego maksimum cepstrum rzeczywistego j-tej ramki,

dp – zakres sumowania w obrębie kolejnego i-tego maksimum cepstrum,

mci, j – mel-cepstralne cechy dystynktywne j-tej ramki.

Detekcja poszczególnych maksimów odbywała się na zasadzie przeszukiwana wartości

maksymalnych w okolicach przewidywanych maksimów określonych na podstawie

częstotliwości podstawowej.

3.3.7. Klasyfikacja

Klasyfikacja w kontekście automatycznego rozpoznawania mówcy jest ostatnim

etapem projektowania systemów ASR. W celu zbadania skuteczności danego klasyfikatora

należy przeprowadzić szereg testów z wykorzystaniem dwóch zbiorów: treningowego, na

podstawie którego klasyfikator "uczy się" poprawnej klasyfikacji, oraz testowego, na

podstawie którego jest sprawdzana jakość generalizacji badanego klasyfikatora, tzn. jak

dobrze, klasyfikator "nauczony" na zbiorze treningowym, radzi sobie z klasyfikacją

danych ze zbioru treningowego. Oczywiście, aby ocenić jakość klasyfikacji zbioru

testowego, konieczna jest znajomość prawdziwej przynależność jego elementów do klas

i porównanie jej z przyporządkowaniem elementów do klas zaproponowanym przez

klasyfikator.

Mówiąc o zadaniu klasyfikacji, należy w pierwszej kolejności dokonać procesu

normalizacji danych, które będą podlegały rozpoznaniu. Jest to krok dość powszechnie

stosowany, ze względu na fakt, że wartości poszczególnych deskryptorów wchodzących

w skład odcisku głosu mogą dotyczyć różnych wielkości, nierzadko różniących się, co do

skali. W przypadku projektowania automatycznego systemu może to utrudniać właściwą

ocenę wpływu poszczególnych zmiennych na analizowany proces. Zastosowano

najczęściej stosowaną w praktyce standaryzację statystyczną w odniesieniu do każdego

z deskryptorów. W wyniku takiego działania otrzymuje się wektor cech, którego wartość

średnia jest zerowa, natomiast odchylenie standardowe równe jedności, dzięki czemu

wszystkie cechy mają porównywalny wpływ na analizowany proces.

Bazę danych czyli zbiór dostępnych próbek głosu dzieli się na dwa zbiory. Pierwszym

jest zbiór treningowy, z którego budujemy model. Drugi zbiór, zwany zbiorem testowym

służy do testowania modelu. Model uczący może być używany do przewidywania klas

nowych próbek, dla których atrybut decyzyjny jest utracony lub nieznany. Dwuetapowy

proces budowy klasyfikatora składa się z fazy treningowej zwanej uczeniem (klasyfikator

jest budowany w oparciu o zbiór treningowy danych) oraz fazy testowania, polegającej na

weryfikacji dokładności (jakość) klasyfikatora w oparciu o testowy zbiór danych.

Zbiór modelowy powinien zawierać zdecydowanie więcej próbek niż zbiór testowy.

Zazwyczaj przyjmuje się, iż zbiór modelowy powinno tworzyć pomiędzy 70%, a 75%


93

całkowitej liczby dostępnych próbek. W projekcie zdecydowano się przyjąć podział 3:1.

W wyniku tego dla każdego z 50 mówców otrzymano 30 wektorów zaliczonych do bazy

danych uczących oraz 10 wektorów zakwalifikowanych jako dane testowe.

W pierwszym etapie badań zdecydowano się na analizę dwóch nieparametrycznych

metod klasyfikacji: metody k najbliższych sąsiadów oraz metody najbliższej średniej.

Wybór ten był podyktowany przewidywanym trybem pracy systemu ASR w czasie

rzeczywistym, do czego wymagane są niskie nakłady obliczeniowe algorytmu klasyfikacji.

Metoda k najbliższych sąsiadów lub krócej metoda k-nn (ang. k nearest neighbours)

polega na obliczeniu odległości pomiędzy odpowiednimi parami wektorów (aktualnie

analizowanego wektora cech z każdym z wektorów wzorcowych, osobno dla każdego

mówcy z bazy). Kolejnym krokiem jest wybranie k wektorów charakteryzujących się

najkrótszą odległością badanego punktu od każdego wektora wzorcowego z bazy (osobno

dla każdego mówcy), a następnie ich zsumowanie. Nowy wektor zostaje

przyporządkowany do klasy do której suma odległości jest najmniejsza. Dodatnia liczba

naturalna k jest parametrem opisywanej metody k-nn. Zadaniem było dobranie jej

optymalnej wartości w odniesieniu do opracowanego algorytmu. Drugim równie często

wybieranym parametrem jest zastosowana metryka. Z prowadzonych na świecie badań

wynika, że rodzaj metryki nie ma istotniejszego wpływu na poprawność w przypadku, gdy

dokonano wcześniejszej standaryzacji poszczególnych deskryptorów. W związku z tym

zdecydowano się zastosować standardową odległość euklidesową.

Drugą analizowaną metodą jest metoda najbliższej średniej. Polega ona na obliczaniu

odległości pomiędzy aktualnie testowanym wektorem oraz średnimi wektorami

przypisanymi do każdego mówcy z bazy danych. W metodzie tej można wprowadzić

parametr a decydujący o dozwolonej rozległości klasy. Oznacza to, że przy obliczaniu

średniego wektora danej klasy odrzucane są te wektory składowe, których wartości

spełniają poniższą zależność

add sr max (3.3.14)

Drugi etap badań polegał na dokonaniu szeregu eksperymentów mających na celu

dobranie optymalnej liczby k dla metody k najbliższych sąsiadów i parametru a dla metody

najbliższej średniej oraz w konsekwencji wybór najlepszego klasyfikatora dla

projektowanego systemu. Odpowiednie wyniki zestawiono w tab. 3.3.2 oraz tab. 3.3.3.

Tabela 3.3.2. Liczba błędnie zaklasyfikowanych wektorów w funkcji k najbliższych sąsiadów

k 1 2 3 4 5 6 7 8

Liczba błędów 12 12 12 11 14 16 18 20

Tabela 3.3.3. Liczba błędnie zaklasyfikowanych wektorów w funkcji parametru rozległości klasy a

a 1 1,5 2 2,5 3 4 5

Liczba błędów 38 37 40 40 40 40 40

Przeprowadzona analiza pozwoliła na jednoznaczne wskazanie metody klasyfikacji

w kontekście projektowanego systemu. Analizując wyniki przeprowadzonych badań

można stwierdzić, że metoda k najbliższych sąsiadów daje znacząco mniejszą liczbę

niepoprawnych klasyfikacji w porównaniu do metody najbliższej średniej.

Zgodnie z wynikami eksperymentów wartość k = 4 jest minimum globalnym

optymalizowanej funkcji, a dalsze zwiększanie tego parametru powoduje jedynie

zwiększanie się liczby niepoprawnych klasyfikacji. Można również zauważyć, że dla

metody najbliższej średniej odrzucanie punktów skrajnych nie daje pozytywnych efektów,


94

jest to najprawdopodobniej związane z nieznanym rozkładem tych danych w przestrzeni

11-wymiarowej. W badanym przypadku finalnie dochodzimy więc do metody

4 najbliższych sąsiadów.

W oparciu o przeprowadzone eksperymenty opracowano klasyfikator działający wg

metody 4 najbliższych sąsiadów, który charakteryzuje się błędem 2,2% (liczba błędnych

klasyfikacji 11 na 500 sprawdzanych wektorów). Jest to niewątpliwie satysfakcjonujący

wynik dla tego typu systemów. Mimo zadawalających wyników zdecydowano się

dodatkowo na usprawnienie opracowanego algorytmu w celu zmniejszenia błędu

klasyfikacji wynikającego z zastosowania metody 4 najbliższych sąsiadów

i przeprowadzili dodatkowe badania, które pozwoliły na ocenę możliwości zastosowania

dodatkowego klasyfikatora sieci neuronowej SVM. Sieć SVM nie została jednak

wykorzystana początkowo, przede wszystkim ze względu na długi czas obliczeń, w

odniesieniu do wszystkich 50 klas. Zdecydowano się jednak na próbę przebadania sieci

SVM w strategii „jeden przeciw wszystkim” w ograniczonym zbiorze klas.

W pierwszej kolejności należało więc opracować pewną regułę decyzyjną, która

odpowiadałaby za wybór klas, poddawanych działaniu sieci SVM. Po wnikliwej analizie

wyników otrzymanych w oparciu o metodę 4 najbliższych sąsiadów wyciągnęli wnioski,

że do wyboru klas posłużą się kryterium mówiącym o tym, że jeżeli odległość do drugiej

z kolei najbliższej klasy jest większa o 25% od odległości do klasy najbliższej, to za

zwycięską uznaje się klasę pierwszą i niewskazane jest stosowanie dodatkowych technik

klasyfikacyjnych. Przyjęcie progu 25 % było efektem analizy błędów otrzymanych metodą

4 najbliższych sąsiadów w oparciu o bazę 500 punktów z grupy testowej. Większość

błędów wystąpiła gdy

12 25,1 dd (3.3.15)

W przypadku, gdy odległość ta jest mniejsza, współdecyduje głosowanie 4 sieci SVM.

Do analizy wybrano wszystkie przypadki błędnie zaklasyfikowane metodą odległościową

(11) oraz pozostałe 29, które spełniają warunek (3.3.4) – razem 40 przypadków.

W przypadku sieci liniowej analiza polegała na dobraniu stałej regularyzacji C w zakresie

[1, 2, 4, 8, 16, 100, 1000]. Natomiast w przypadku sieci nieliniowej testowano sieci

z jądrem gaussowskim, a doborowi podlegały parametry C i σ. Niestety pomimo

zastosowania zarówno liniowej jak i nieliniowej sieci SVM wyniki nie dały oczekiwanych

rezultatów. Sieć liniowa powodowała, że liczba błędów przekraczała pierwotną liczbę

wynikającą z metody minimalno-odległościowej. W przypadku zastosowania sieci

nieliniowej okazało się, że zbyt dobrze dopasowywała się ona do danych uczących, co

powodowało nie tylko istotny przyrost błędów w stosunku do sieci liniowej, ale również

nieakceptowalny wzrost czasu obliczeń. Być może lepszym rozwiązaniem byłoby

zastosowanie strategii „jeden przeciw jednemu”. Jednak została ona odrzucona, ponieważ

w ocenie twórców w tego typu systemach jest ona nie do przyjęcia, głównie ze względu na

fakt, iż dodawanie każdej nowej osoby do bazy wymagałoby konstrukcji nowych

klasyfikatorów, a to znacznie obciążyłoby system, który wedle założeń ma działać w trybie

on-line. Poza tym pojawia się dodatkowo problem danych uczących, których w owej

strategii jest znacznie mniej, bo w każdym przypadku tylko z dwóch klas. Uzyskane

wyniki spowodowały odrzucenie koncepcji zastosowania sieci SVM jako dodatkowego

klasyfikatora do polepszania procedury rozpoznawania.

3.4. Demonstrator technologii multibiometrycznego systemu rozpoznawania osób

Materialnym efektem zaprezentowanych prac z obszaru technologii

multibiometrycznej było opracowanie i wykonanie demonstratora systemu, pozwalającego


95

na bezkontaktową identyfikację tożsamości na podstawie m.in. obrazu twarzy i sygnału

mowy. Jego zasadniczym zadaniem jest przesiewowa analiza obrazów i dźwięków

rejestrowanych w określonej strefie kontrolnej w celu identyfikacji osobników potencjalnie

niebezpiecznych, których fotografie i próbki mowy zebrane są w odpowiedniej bazie

danych. Technologia ta została opracowana w ramach projektu pt. "Multibiometryczny

system identyfikacji osób do przeciwdziałania zagrożeniom terrorystycznym"

finansowanego przez Narodowe Centrum Badań i Rozwoju w latach 2010-2012. Pełny

zespół badawczy uczestniczący w opracowywaniu systemu składał się, oprócz autorów

niniejszego opracowania, z następujących, podanych w kolejności alfabetycznej osób:

Z. Biniek, T. Dąbrowski, R. Galewski, A. Jachocki, J. Kaźmierczak, I. Krysowaty,

K. Kwiatos, R. Maison, P. Niedziejko, W. Olchowik, P. Ostrowski, S. Osowski, J. Paś,

M. Wierzbowski, R. Wrona.

Opracowany demonstrator sprzętowo składa się z trzech modułów. Pierwszy z nich to

moduł rejestracyjny, drugi to moduł prezentacyjny natomiast trzeci to moduł serwera

multibiometrycznego. Na rys. 3.4.1 został przedstawiony widok modułu prezentacyjnego

demonstratora multibiometrycznego. W jego skład wchodzą elementy składowe

zaznaczone na rysunku następującymi numerami:

1. Obrotowa megapikselowa kamera IP PTZ,

2. Paraboliczny mikrofon kierunkowy,

3. Statyczna kamera IP,

4. Maszt instalacyjny do kamer IP oraz mikrofonu,

5. Zestaw komputerowy I7,

6. Optyczny czytnik linii papilarnych BioMini,

7. Obudowa typu „Flightcase”.

Rys. 3.4.1. Demonstrator systemu multibiometrycznego

W ramach platformy programowej w skład demonstratora weszły dwie aplikacje

bazodanowe działające na SZBD PostgreSQL (napisane w języku C# na platformie .NET

4.0). Pierwszą z nich jest „Rejestrator”, służący do akwizycji danych podejrzanych osób

oraz ich ostatecznej identyfikacji. Identyfikacja ta może być przeprowadzona w oparciu o

autonomiczne działanie każdego z zaimplementowanych algorytmów jak i na bazie ich

fuzji (rys 3.4.2). Posługując się tym oprogramowaniem istnieje możliwość akwizycji

następujących danych biometrycznych: zdjęcie twarzy, odciski palców, próbki dźwiękowe

głosu, próbka kodu DNA (dostarczona w formie cyfrowej w postaci pliku).


96

Rys. 3.4.2. Widok okna identyfikacji podejrzanego przy poprawnym rozpoznaniu na podstawie

poszczególnych zastosowanych cech biometrycznych

Druga z wykonanych aplikacji nazwana została „Guard”. W wyniku jej działania

uzyskuje się automatyczne rozpoznawanie osób w czasie rzeczywistym na podstawie

obrazu twarzy dostarczonego z podłączonych do demonstratora lub sieci Ethernet kamer

(rys. 3.4.3). W obecnej wersji aplikacja ta umożliwia pracę prowadzoną w osobnych

wątkach z maksymalnie czterema kamerami. Każdy wątek ma swoje własne połączenie z

bazą danych i własne obiekty do śledzenia i tworzenia wektorów twarzy. Rozszerzenie

systemu można uzyskać poprzez rozbudowę o kolejne stacje robocze połączone z

serwerem multibiometrycznym, zawierającym centralną bazę danych oraz pliki

klasyfikatorów. Dodatkowo, w celu zwiększenia bezpieczeństwa, aktualne pliki

klasyfikatorów są przechowywane tymczasowo na każdym z demonstratorów (każdej

stacji roboczej) dzięki czemu system umożliwia pracę również w warunkach braku

komunikacji z serwerem.

W procesie detekcji twarzy używany jest klasyfikator kaskad Haara (Haar Cascade

Classifier). Użytkownik demonstratora ma możliwość zmiany domyślnych parametrów

detekcji twarzy takich jak np.:

prędkość zwiększania skali – w procesie automatycznej detekcji twarzy, obraz

przeszukiwany jest wielokrotnie z różną wielkością fragmentów detekcji. Im parametr

ten jest większy, tym proces detekcji trwa krócej jednak, mniej dokładnie.

próg minimalnego sąsiedztwa – parametr ten określa minimalną sąsiedztwo np. dwóch

twarzy kiedy to można je uznać za jedną twarz.

minimalna wielkość twarzy – parametr określający minimalną wielkość wykrytej

twarzy poddawaną procesowi identyfikacji, od wartości tej startuje detekcja

w klasyfikatorze kaskad Haara.


97

Rys. 3.4.3. Efekt działania aplikacji „Guard” – wskazanie osoby z bazy danych (obwódka twarzy

w kolorze czerwonym + identyfikator osoby)

W celu odciążenia procesora zastosowany został autorski system śledzenia twarzy,

dzięki któremu po rozpoznaniu identyfikowanej osoby następuje śledzenie jej twarzy do

momentu wyjścia poza pole widzenia kamery oraz do momentu wystąpienia braku

spełniania zadeklarowanych warunków co do jakości i wielkości twarzy. Śledzenie twarzy

zostało tak zaprojektowane, aby umożliwić użytkownikowi deklarację odpowiednich

parametrów w zależności od środowiska pracy. Do parametrów tych w szczególności

zalicza się:

Próg uznania twarzy – liczba pikseli pomiędzy współrzędnymi badanej twarzy

a wszystkimi innymi wcześniej wykrytymi. Jeśli odległość ta jest większa niż ten

próg, badana twarz uznawana jest za nową. Im wartość tego parametru jest niższa, tym

częściej następuje proces identyfikacji dla jednej twarzy.

TTL Twarzy (Time to Live) – lista wykrytych twarzy oprócz współrzędnych zawiera

również atrybut TTL. Atrybut ten jest zmniejszany o 1 po każdym badaniu, w którym

nie nastąpiło porównanie z daną twarzą.

Czas zniknięcia twarzy – czas po którym współrzędne wykrytej twarzy są usuwane

z listy twarzy.

Identyfikacja w systemie odbywa się po stronie bazy danych. Jej idea została

omówiona w poprzednich rozdziałach. Po przeprowadzeniu procesu identyfikacji

podejrzanej osoby, użytkownik ma możliwość podglądu szczegółowych wyników tego

procesu m.in. informacji o podejrzanym oraz listy osób najbardziej podobnych do

identyfikowanego. Na szczególną uwagę w opracowanym systemie zasługuje nowatorska

multibiometryczna baza danych. Cechą szczególną wyróżniającą ją spośród innych tego

typu rozwiązań są przede wszystkim jej rozmiary. Zawiera on dane multibimetryczne

ponad stu osób którymi są w szczególności: obrazy twarzy, próbki głosu, odciski palców,

dystynktywne fragmenty kodu DNA. Zebrane dane dotyczą osób w różnym wieku –

zarówno kobiet, jak i mężczyzn.

Podsumowując – omawiany demonstrator to zaawansowany technologicznie system

przeznaczony zarówno do prezentacji technologii, jak i do prowadzenia badań i testów.

Zastosowanie w nim wysokiej jakości urządzeń rejestrująco-pomiarowych oraz

omówionych w poprzednich rozdziałach złożonych algorytmów przetwarzania, ekstrakcji


98

cech dystynktywnych oraz klasyfikacji wzorców determinuje jego poprawną pracę.

Niezwykle istotną funkcjonalnością jest możliwość edycji parametrów pracy, zarówno

poszczególnych, zaimplementowanych algorytmów jak i całego systemu, dzięki czemu

uzyskuje się możliwość modernizacji i poprawy parametrów pracy demonstratora w

zależności od zastosowań.

3.5. Podsumowanie

W niniejszym rozdziale zaprezentowano problematykę związaną z identyfikacją

biometryczną przy użyciu algorytmów rozpoznawania twarzy i głosu. Szerokie spektrum

problemów spotykanych podczas prowadzenia procesu identyfikacji tzw. utajonej oraz

brak dostępnych na rynku wiarygodnych algorytmów i systemów multibiometrycznych

były dla autorów inspiracją do poszukiwania rozwiązań w tym obszarze.

Przeprowadzone badania i eksperymenty wykazały, iż zastosowanie technik

multibiometrycznych w systemach identyfikacji osób powoduje zwiększenie poziomu

wiarygodności tego procesu. Stwierdzenie to skłania do dalszego rozwijania tematyki

multibiometrycznych systemów identyfikacji. Dalszym kierunkiem rozwoju tej metody

będzie zwiększenie autonomiczności systemu oraz takie jego rozproszenie, aby uzyskać

jak największą niezależność od reakcji osoby identyfikowanej. Perspektywiczne badania

skupione zostaną w szczególności na takiej organizacji procesu akwizycji danych

biometrycznych oraz metadanych, aby proces identyfikacji przebiegał całkowicie

nieinwazyjnie (zupełny brak wiedzy o prowadzeniu takiego procesu u osoby

identyfikowanej). Najprawdopodobniej oznaczać to będzie także rozszerzenie systemu o

rozpoznanie na podstawie cech behawioralnych. Osiągnięte wyniki mogą stać się istotnym

przyczynkiem dla opracowania jeszcze bardziej skutecznych i efektywnych metod analizy

danych multibiometrycznych.

Nie sposób również nie wspomnieć, iż identyfikacja i weryfikacja to jedynie wybrane

obszary, w których możliwe jest zastosowanie biometrii. Nierzadko zagadnienia te

poruszane są przy prezentowaniu problemu analizy stanu emocjonalnego, aż po

zastosowania medyczne (np. identyfikacja zaburzeń i schorzeń).

Literatura

[1] Smiatacz M., Malina W., Automatyczne rozpoznawanie twarzy – metody, problemy,

zastosowania, Techniki Komputerowe, t. 42, nr 1, s. 107-128, Warszawa 2008.

[2] Brunelli R., Poggio T., Face Recognition: Features versus Templates, IEEE Trans.

on Pattern Recognition and Machine Intelligence, v. 15, No. 10, 1993, pp. 1042-

1052.

[3] Belhumeur P., Hespanha J., Kriegman D., Eigenfaces vs. Fisherfaces: Recognition

Using Class Specific Linear Projection, IEEE Trans. on Pattern Recognition and

Machine Intelligence, v. 19, No. 7, 1997, ss. 711-720.

[4] Lowe D., Distinctive image features from scale-invariant keypoints, Int. Journal of

Computer Vision, vol. 60, No. 2, 2004, ss. 91-110.

[5] Pawlik P., Mikrut S., Porównanie dokładności wybranych metod dopasowania

obrazów zdjęć lotniczych, Archiwum Fotogrametrii, Kartografii I Teledetekcji, vol.

17b, 2007, ss. 603-611.


99

[6] Ilkyun J., Sewoong J., Youngouk K., Mobile robot navigation using difference of

wavelet SIFT, Second International Conference on Machine Vision, Dubai, grudzień

2009, ss. 286-292.

[7] Geng C., Jiang X., SIFT features for face recognition, Second IEEE International

Conference on Computer Science and Technology, sierpień 2009, 598-602.

[8] Krizaj J., Struc V., Pavesic N., Adaptation of SIFT features for face recognition

under varying illumination, Proc. of the 33rd

International Convention MIPRO,

Opatija, 2010, ss. 691-694.

[9] Turk M., Pentland A., Eigenfaces for recognition, Journal of Cognitive

Neuroscience, Vol. 3, Nr 1, 1991, ss. 71-86.

[10] Lindeberg T., On scale selection of different operators, VIII Scandinavian

Conference on Image Analysis, Tromso, maj 1993, ss. 857-866.

[11] Lowe D., Distinctive image features from scale-invariant keypoints, Int. Journal of

Computer Vision, vol. 60, No. 2, 2004, ss. 91-110.

[12] Koenderink J., The structure of images, Biological Cybernetics, Nr 50, 1984, ss.

363–370.

[13] Witkin, A. P. Scale-space filtering, Proc. 8th Int. Joint Conf. Art. Intell., Karlsruhe,

Germany, 1983, ss. 1019–1022.

[14] Lindeberg T., Scale-space theory: a basic tool for analyzing structures at different

scales, Journal of Applied Statistics, Vol. 21, Nr 1-2, 1994.

[15] Babaud J., Witkin A. P., Baudin M., Duda R. O., Uniqueness of the Gaussian kernel

for scale-space filtering, IEEE Trans. Pattern Anal. Machine Intell., Vol. 8, Nr 1, ss.

26–33, 1986.

[16] Weickert J., Linear scale space has first been proposed in Japan, Journal of

Mathematical Imaging and Vision, Vol. 10, Nr 3, ss. 237–252, 1999.

[17] Koronacki J., Ćwik J., Statystyczne systemy uczące się, Akademicka Oficyna

Wydawnicza EXIT, Warszawa 2008.

[18] Crowley J.L., Fast Computation of Characteristic Scale Using a Half-Octave

Pyramid, Proc. International Workshop on Cognitive Vision (CogVis), Zurich,

Szwajcaria, 2002.

[19] Jakubowski J., Ocena możliwości wykorzystania deskryptorów cech lokalnych

obrazu twarzy w zadaniu automatycznej identyfikacji osób, Przegląd

Elektrotechniczny, R. 87, Nr 11a/2012, ss. 217-221.

[20] Anderson T. W., R. A. Fisher and multivariate analysis, Statistical Science, vol. (1),

1996, ss. 20-34

[21] Ciota Z., Metody przetwarzania sygnałów akustycznych w komputerowej analizie

mowy, Exit 2010

[22] Dobrowolski A., Majda E., Application of homomorphic methods of speech signal

processing in speakers recognition system, Electrical Review, R. 88 NR 6/2012

[23] Furui S., Recent advantages in speaker recognition, Pattern Recognition Letters 18,

1997, ss. 859-1872

[24] Keshet J., Bengio S. Automatic Speech and Speaker Recognition, Wiley, 2009

http://www.tandfonline.com/loi/cjas20?open=21#vol_21

http://www.tandfonline.com/toc/cjas20/21/1-2


100

[25] Kruk M., Osowski S., Koktysz R., Recognition of Colon Cells Using Ensemble of

Classifiers, International Conference on Neural networks, Orlando, Florida, USA,

2007.

[26] Kopparapu S. K., Laxminarayana M., Choice of Mel Filter Bank in Computing

MFCC a resamples Speech, 10-th International Conference on Information Science,

Signal processing and their Applications, Malaysia 2010, ss. 121-124

[27] Majda E., Dobrowolski A., Modeling and optimization of the feature generator for

speaker recognition systems, Electrical Review, 12/2012

[28] Majda E., Dobrowolski A., Feature generator for speaker recognition using the

fusion of cepstral and melcepstral parameters, Joint Conference NTAV/SPA, 2012,

Łódź 2012

[29] Oppenheim A. V., R. Schafer W., From Frequency to Queferency: A history of the

cesptrum, IEEE Signal Processing Magazine, 2004 ss.95-106.

[30] Pawłowski Z., Foniatryczna diagnostyka wykonawstwa emisji głosu śpiewaczego i

mówionego, Impuls, 2005.

[31] Ruud M. Bolle, Jonathan H. Connell, Sharath Panakanti, Nalini K. Ratha, Andrew W.

Senior, Biometria, Wydawnictwa Naukowo-Techniczne WNT, Warszawa 2008.

[32] Dąbrowski T., Bednarek M., Wiśnios M., Analiza wiarygodności identyfikacji

multibiometrycznej typu „odciski palców”, Zimowa Szkoła Niezawodności, Szczyrk

2013.

[33] Dąbrowski T., Wiśnios M., Badania weryfikacyjne metody rozpoznawania twarzy,

VIII Krajowa Konferencja „Diagnostyka Techniczna Urządzeń i Systemów”

Diag`2013, Ustroń 2013.

badanie i wnioskowanie...

Documents