badanie i wnioskowanie...
TRANSCRIPT
BADANIE I WNIOSKOWANIE DIAGNOSTYCZNE
WYBRANE ZAGADNIENIA
Praca zbiorowa
pod redakcją naukową Tadeusza DĄBROWSKIEGO
Warszawa 2013
Opiniodawcy prof. dr hab. inŜ. Jerzy LEWITOWICZ prof. dr hab. inŜ. Andrzej MICHALSKI Redakcja naukowa:
dr hab. inŜ. Tadeusz DĄBROWSKI Wojskowa Akademia Techniczna, Wydział Elektroniki
Autorzy:
Rozdział 1 dr inŜ. Piotr BOJAR Uniwersytet Technologiczno-Przyrodniczy,
Wydział InŜynierii Mechanicznej prof. dr hab. inŜ. Maciej WOROPAY WyŜsza Szkoła Techniki i Przedsiębiorczości we
Włocławku Rozdział 2 dr hab. inŜ. Tadeusz DĄBROWSKI Wojskowa Akademia Techniczna, Wydział Elektroniki
Rozdział 3 dr hab. inŜ. Andrzej P. DOBROWOLSKI Wojskowa Akademia Techniczna, Wydział Elektroniki dr inŜ. Jacek JAKUBOWSKI Wojskowa Akademia Techniczna, Wydział Elektroniki mgr inŜ. Ewelina MAJDA Wojskowa Akademia Techniczna, Wydział Elektroniki mgr inŜ. Jolanta PACAN Wojskowa Akademia Techniczna, Wydział Elektroniki mgr inŜ. Michał WIŚNIOS Wojskowa Akademia Techniczna, Wydział Elektroniki Rozdział 4 prof. dr hab. inŜ. Jerzy GIRTLER Politechnika Gdańska,
Wydział Oceanotechniki i Okrętownictwa Rozdział 5 dr inŜ. Marek KUCHTA Wojskowa Akademia Techniczna, Wydział Elektroniki Rozdział 6 prof. dr hab. inŜ. Henryk TYLICKI Państwowa WyŜsza Szkoła Zawodowa w Pile Rozdział 7 dr inŜ. Jacek WOJTAS Wojskowa Akademia Techniczna, Instytut Optoelektroniki © Copyright by Instytut Systemów Elektronicznych Wydział Elektroniki Wojskowej Akademii Technicznej
Warszawa 2013
ISBN 978-83-62954-80-3 Publikacja zakwalifikowana do druku bez poprawek edytorskich Redakcji Wydawnictw WAT
Projekt okładki: Barbara Chruszczyk
Skład komputerowy: mgr inŜ. Jolanta Pacan, mgr inŜ. Michał Wiśnios
Wydawca: Wojskowa Akademia Techniczna
Druk: BEL Studio Sp. z o.o., ul. Powstańców Śląskich 67b, 01-355 Warszawa
Warszawa 2013
Spis treści
WSTĘP ............................................................................................................................................... 7
1. BEZPIECZEŃSTWO PROCESU TRANSPORTOWEGO W ŚWIETLE RÓŻNORODNYCH
WYMUSZEŃ.............................................................................................................................. 11
1.1. Wstęp..................................................................................................................................... 11
1.2. Bezpieczeństwo działania systemów transportowych ........................................................... 11
1.3. Identyfikacja czynników oddziałujących na systemy transportowe ..................................... 15
1.4. Obiekt badań ......................................................................................................................... 25
1.5. Algorytm oceny bezpieczeństwa działania systemu miejskiej komunikacji autobusowej .... 29
1.6. Podsumowanie ...................................................................................................................... 33
2. POTENCJAŁOWE KRYTERIA BEZPIECZEŃSTWA SYSTEMU EKSPLOATACJI .......... 35
2.1. Wstęp..................................................................................................................................... 35
2.2. Charakterystyka systemu bezpiecznościowego ..................................................................... 35
2.3. Potencjałowe miary i kryteria zdatności bezpiecznościowej ................................................ 41
2.4. Wnioskowanie użytkowo-bezpiecznościowe w oparciu o trajektorie potencjałowe ............ 43
2.5. Ilustracja bezpiecznościowego wnioskowania diagnostycznego .......................................... 46
2.6. Podsumowanie ...................................................................................................................... 49
3. PRZETWARZANIE WYBRANYCH DANYCH BIOMETRYCZNYCH NA POTRZEBY
IDENTYFIKACJI TOŻSAMOŚCI ............................................................................................ 51
3.1. Wprowadzenie ....................................................................................................................... 51
3.2. Rozpoznawanie twarzy ......................................................................................................... 52
3.3. Rozpoznawanie głosu ............................................................................................................ 78
3.4. Demonstrator technologii multibiometrycznego systemu rozpoznawania osób ................... 94
3.5. Podsumowanie ...................................................................................................................... 98
4. METODA OCENY DZIAŁANIA MASZYN Z ZASTOSOWANIEM DIAGNOSTYKI
TECHNICZNEJ ........................................................................................................................ 101
4.1. Wstęp................................................................................................................................... 101
4.2. Działanie maszyn w ujęciu deterministycznym .................................................................. 103
4.3. Działanie maszyn w ujęciu probabilistycznym ................................................................... 112
4.4. Diagnostyka maszyn w aspekcie ich działania .................................................................... 113
4.5. Zastosowanie procesów stochastycznych do opisu działania maszyn ................................ 117
4.6. Podsumowanie .................................................................................................................... 124
5. MODELOWANIE WYBRANYCH UKŁADÓW BIOMECHANICZNYCH ......................... 129
5.1. Wstęp................................................................................................................................... 129
5.2. Modelowanie układów biomechanicznych ......................................................................... 132
5.3. Modele fizyczne układów biomechanicznych ..................................................................... 140
5.4. Modele matematyczne układów biomechanicznych ........................................................... 145
5.5. Wnioski końcowe ................................................................................................................ 152
6. GENEZOWANIE STANU MASZYN – SZACOWANIE PRZYCZYN USZKODZEŃ ........ 155
6.1. Wstęp ................................................................................................................................... 155
6.2. Charakterystyka zagadnienia ............................................................................................... 155
6.3. Budowa procedur genezowania stanu ................................................................................. 160
6.4. Przykład ............................................................................................................................... 170
6.5. Podsumowanie .................................................................................................................... 178
7. ZASTOSOWANIE SPEKTROSKOPII ABSORPCYJNEJ W PODCZERWIENI DO
WYKRYWANIA BIOMARKERÓW CHORÓB W LUDZKIM ODDECHU ........................ 181
7.1. Spektroskopia absorpcyjna w podczerwieni ....................................................................... 181
7.2. Wybrane biomarkery chorób wykrywane w oddechu człowieka ........................................ 185
7.3. Układy do spektroskopii absorpcyjnej ................................................................................ 188
7.4. Spektroskopia strat we wnęce optycznej ............................................................................. 190
7.5. Projekt systemu do wykrywania biomarkerów ................................................................... 194
7.6. Podsumowanie .................................................................................................................... 197
51
ROZDZIAŁ 3
PRZETWARZANIE WYBRANYCH DANYCH BIOMETRYCZNYCH
NA POTRZEBY IDENTYFIKACJI TOŻSAMOŚCI
Andrzej P. DOBROWOLSKI, Jacek JAKUBOWSKI, Ewelina MAJDA,
Jolanta PACAN, Michał WIŚNIOS
W niniejszym rozdziale zaprezentowano wybrane zagadnienia z obszaru technicznych
systemów multibiometrycznej identyfikacji osób. Autorzy skoncentrowali się na
charakterystyce współczesnych algorytmów przetwarzania obrazu twarzy i mowy, które
stanowią podstawę procedur rozpoznawania w warunkach niskiego stopnia współpracy
badanej osoby. W kolejnych podrozdziałach przedstawiono ideę holistycznego i lokalnego
algorytmu rozpoznawania twarzy, autorską metodę ekstrakcji cech sygnału głosu opartą na
analizie cepstralnej, metodykę ich selekcji oraz odległościowy algorytm klasyfikacji.
W zakończeniu zaprezentowano prototypowy demonstrator systemu wykorzystującego
omówione metody przetwarzania.
3.1. Wprowadzenie
Biometria jest nauką zajmującą się matematyczno-statystycznymi badaniami
zmienności populacji organizmów żywych oraz pomiarami ich mierzalnych cech, która
znajduje szerokie zastosowanie w problematyce komputerowego rozpoznawania lub
weryfikacji tożsamości. Metody biometryczne bazują na unikatowych cechach organizmu
ludzkiego, które charakteryzują się indywidualnością, powszechnością, wysoką
niezmiennością pod wpływem czynników takich, jak wiek czy stan psychofizyczny
człowieka oraz mierzalnością, czyli łatwością oceny ilościowej. Organizm człowieka
wykazuje wiele właściwości spełniających w zadowalającym stopniu powyższe założenia.
Dużą zaletą biometrycznych metod rozpoznawania i weryfikacji tożsamości jest fakt, że
analizowanych w procesie rozpoznania cech nie można ukraść, zgubić ani w większości
przypadków podrobić w sposób łatwy i opłacalny finansowo. Ze względu na rodzaj
analizowanej cechy techniki biometryczne dzielą się na dwie zasadnicze grupy. Pierwsza
obejmuje metody wykorzystujące cechy fizjologiczne, tzw. genotypowe, spośród których
najbardziej rozpowszechnione są linie papilarne, obraz twarzy, tęczówka oka czy kod
DNA. Druga grupa bazuje na cechach behawioralnych, tzw. fenotypowych, które są
wzorcami indywidualnych zachowań nabytych przez człowieka w procesie wzrostu.
Przykładami tego typu cech są: charakter pisma odręcznego, ruchy gałki ocznej i głos,
którego charakter jest zależny zarówno od budowy narządów aparatu głosowego, jak i
nabytego w dzieciństwie sposobu wytwarzania dźwięku.
Oprócz oczekiwanej wysokiej wiarygodności działania systemu biometrycznego
niemniej istotna jest akceptowalność sposobu pobrania danych do analizy. W wielu
praktycznych zastosowaniach istnieje silna potrzeba realizacji koncepcji badania
przesiewowego przeprowadzanego w trybie „on-line”. Najlepszym materiałem do tego
celu, ze względu na brak konieczności współdziałania podmiotu poddawanego
identyfikacji i coraz lepsze uzyskiwane wiarygodności, jest zarejestrowany obraz twarzy.
Wstępne wskazania badania przesiewowego bazującego na jego analizie mogą być
wówczas uzupełniane analizą wymagającą pewnego prostego współdziałania, czyli np.
Andrzej P. DOBROWOLSKI, Jacek JAKUBOWSKI, Ewelina MAJDA, Jolanta PACAN, Michał WIŚNIOS
52
analizą głosu. Ostateczne rozstrzygnięcie, celem zmniejszenia do zera niepewności
decyzji, jest możliwe z wykorzystaniem pozostałych wysoko wiarygodnych, choć bardziej
inwazyjnych i czasochłonnych metod, jak np. rozpoznawanie na podstawie odcisków
palców i/lub kodu DNA. Ze względu na powyższe uwarunkowania niniejszy materiał
przedstawia aktualny stan wiedzy w zakresie rozpoznawania tożsamości na podstawie
analizy obrazu twarzy i głosu oraz krótką prezentację demonstratora ich praktycznej
implementacji.
3.2. Rozpoznawanie twarzy
W przedmiotowym zadaniu identyfikacji tożsamości na podstawie obrazu twarzy,
występuje konieczność sprostania licznym wymaganiom. Należy przede wszystkim
pamiętać, że twarz jest obiektem trójwymiarowym, którego dwuwymiarowa projekcja
stanowi tylko pewnego rodzaju przybliżenie. Jako główne powody ograniczania
efektywności działania większości metod rozpoznawania tożsamości na podstawie
statycznego obrazu twarzy, można wymienić następujące czynniki:
Zmienne oświetlenie twarzy skutkujące zmianą danych do analizy, tworzonych z
macierzy jasności pikseli.
Różne ustawienia twarzy względem kamery, która zazwyczaj jest urządzeniem
stacjonarnym i nie może zmieniać swojej pozycji w dowolny sposób, natomiast
ustawienie identyfikowanej osoby może być całkowicie przypadkowe jeżeli
procedura uwierzytelniania ma odbywać się bez jej wiedzy.
Mimika twarzy, która jest odzwierciedleniem emocji i stanu psychofizycznego
człowieka. Stanowi ona poważny problem dla wszystkich technik rozpoznawania
twarzy, gdyż nawet najmniejsza zmiana wyrazu twarzy zauważalna dla oka
ludzkiego może powodować znaczącą zmianę wektora cech opisującego
dwuwymiarowy obraz.
Przesłonięcie części twarzy, które powoduje dwojakiego rodzaju trudności. Po
pierwsze dodaje do obrazu nowy element taki, jak np. okulary, fryzura lub makijaż,
co w sposób oczywisty wpływa na postać wektora cech, a po drugie może
eliminować z obrazu ważną z punktu widzenia wykorzystywanej metody
rozpoznawania twarzy cechę. Zasłonięcie ust, nosa czy oczu może całkowicie
uniemożliwić przeprowadzenie poprawnej identyfikacji przy zastosowaniu metod,
które bazują na cechach antropometrycznych.
Na przestrzeni lat były konstruowane i testowane różne strategie ekstrakcji i
wykorzystania uzyskanych cech obrazu twarzy w procesie rozpoznawania tożsamości [1].
Stosowane początkowo podejścia geometryczne [2], zwane też analitycznymi zostały
zastąpione rozpowszechnionymi współcześnie metodami holistycznymi (całościowymi),
które traktują obraz jako macierz wartości poddawaną transformacji do postaci
wielowymiarowego wektora cech [3] lub też metodami mieszanymi, które ze względu na
mnogość stosowanych technik trudno jednoznacznie zaszeregować do jednej z
powyższych kategorii. Jedna z metod całościowych, jako klasyczna, stała się podstawą do
opracowania algorytmów rozpoznawania na potrzeby zaprezentowanego w dalszej części
demonstratora. Jednocześnie jako alternatywę zaproponowano użycie rozwijanych w
ostatnich latach [4] w obszarze widzenia maszynowego, nowoczesnych metod
przetwarzania obrazów bazujących na detekcji i opisie lokalnych wyróżnionych punktów
obrazu, zwanych punktami charakterystycznymi. Ze względu na sposób uzyskiwania,
deskryptory takich punktów cechują się wysokim stopniem odporności na obrót obrazu,
zmianę skali, położenia i do pewnego stopnia perspektywy. Dzięki temu znajdują one
zastosowanie w syntezie zdjęć panoramicznych i lotniczych [5], orientowaniu
Przetwarzanie wybranych danych biometrycznych na potrzeby identyfikacji tożsamości
53
przestrzennym urządzeń mobilnych [6] i wyszukiwaniu znanych wzorców w obrazach
cyfrowych, w tym wzorców obrazów twarzy [7 - 8]. Z uwagi na fakt, że wyznaczanie
deskryptorów cech lokalnych jest dość nową metodą przetwarzania, znaną jak na razie
jedynie z publikacji naukowych, w niniejszym opracowaniu poświęcono jej znacznie
więcej miejsca w stosunku do podejścia klasycznego, które zostało potraktowane jako
odniesienie.
3.2.1. Charakterystyka metod holistycznych na przykładzie algorytmu „twarzy
własnych”
3.2.1.1. Transformacja PCA jako generator cech charakterystycznych
W ogólnym przypadku dane wejściowe dla przekształcenia PCA to wielowymiarowy
wynik eksperymentu – zbiór N p-wymiarowych realizacji (wektorów), które w praktyce
reprezentują wielowymiarową zmienną losową T] ... pXXX 21[X
)(
)(
2
)(
1
)2(
)2(
2
)2(
1
)1(
)1(
2
)1(
1
...
...
...
...
...
......N
p
N
N
pp x
x
x
x
x
x
x
x
x
(3.2.1)
Górny indeks w powyższej zależności wskazuje na numer wyniku eksperymentu, a dolny
jest wskaźnikiem współrzędnej. W danych tych możliwe jest występowanie korelacji
pomiędzy współrzędnymi x1, x2, …, xp, która jest dowodem na nadmiarowość w opisie
eksperymentu za ich pomocą.
Ideą analizy PCA jest znalezienie takiej macierzy przekształcenia T, aby wyjściowy
zbiór danych tworzący macierz Y, złożony z kolumnowych wektorów y(i)
:
)(
)(
2
)(
1
)2(
)2(
2
)2(
1
)1(
)1(
2
)1(
1
)(
)(
2
)(
1
)2(
)2(
2
)2(
1
)1(
)1(
2
)1(
1
...
...
...
...
...
.........
...
...
...
...
......N
p
N
N
pp
N
p
N
N
pp x
x
x
x
x
x
x
x
x
y
y
y
y
y
y
y
y
y
T (3.2.2)
charakteryzował się występowaniem braku korelacji pomiędzy współrzędnymi oraz aby
współrzędne te były uporządkowane malejąco ze względu na wariancję. Wymagania na
dane wyjściowe można zatem opisać ich macierzą kowariancji
pp
y
s
s
s
...
0
0
...
...
...
...
0
...
0
0
...
0 22
11
S (3.2.3)
w której dodatkowo zachodzi
ppsss ...2211 (3.2.4)
Oznacza to, że w danych wyjściowych kowariancja dla każdej z par współrzędnych
jest zerowa (istnieją tylko niezerowe wariancje na przekątnej macierzy Sy). Warunek
(3.2.4) oferuje możliwość odrzucenia ostatnich współrzędnych danych wyjściowych, gdyż
ze względu na możliwą małą wariancję charakteryzują się one małą zmiennością i jako
takie nie zawierają znaczącej informacji. Przekształcenie PCA, po znalezieniu macierzy T
jest więc narzędziem do skutecznej kompresji danych (eksperyment może być opisywany
za pomocą mniejszej ilości współrzędnych bez znaczącej utraty informacji), która, jak się
okaże, jest zbieżna z procesem generacji cech charakterystycznych.
Andrzej P. DOBROWOLSKI, Jacek JAKUBOWSKI, Ewelina MAJDA, Jolanta PACAN, Michał WIŚNIOS
54
Procedurę wyznaczenia macierzy przekształcenia T można formalnie zamknąć w
trzech krokach:
1) wyznaczenie macierzy kowariancji danych wyjściowych
TiN
i
i
xN
))((1
1 )(
1
)(XxXxS
(3.2.5)
2) wyznaczenie dla macierzy kowariancji Sx następujących elementów:
wartości własnych pλλλ ...,,, 21 oraz
ortonormalnych wektorów własnych pttt ...,,, 21
spełniających warunki
jjjx ttS λ dla j=1, 2, …, p (3.2.6)
oraz
ji
jiji
dla
dla
0
1tt (3.2.7)
Narzędzi do wyznaczenia wektorów własnych i wartości własnych dostarcza
algebra liniowa.
3) utworzenie macierzy przekształcenia w postaci wierszowej macierzy wektorów
własnych w kolejności malejących wartości własnych:
T
p
T
T
t
t
t
T...
2
1
, pλλλ ...21 (3.2.8)
Zgodnie z zapisem działania za pomocą zależności (3.2.2), wektory własne w
powyższej macierzy tworzą kierunki, na które rzutowane są dane wejściowe.
Kierunki te nazywane są kierunkami głównymi (i stąd nazwa metody).
Uzasadnieniem dla powyższego postępowania jest postać macierzy kowariancji
danych wyjściowych
TiN
i
i
yN
))((1
1 )(
1
)(YyYyS
(3.2.9)
Po dokonaniu podstawienia )()( ii
xTy oraz XTY otrzymuje się
T
x
TTiN
i
iTTiN
i
i
TiN
i
iTiN
i
i
y
NN
NN
TTSTXxXTxTTXxXTxT
XxTXxTXTTxXTTxS
]))((1
1[))((
1
1
)]()[(1
1))((
1
1
)(
1
)()(
1
)(
)(
1
)()(
1
)(
(3.2.10)
Uwzględniając postulowaną postać macierzy przekształcenia (3.2.8), ostatnie mnożenie
macierzowe można przeprowadzić następująco
] ... ] ... pxxx
T
p
T
T
px
T
p
T
T
y tStStS
t
t
t
tttS
t
t
t
S
21
2
1
21
2
1
[...
[...
(3.2.11)
Przetwarzanie wybranych danych biometrycznych na potrzeby identyfikacji tożsamości
55
Korzystając z zależności (3.2.6) wiążącej macierz kowariancji Sx z jej wektorami
własnymi oraz warunku ortonormalności tych wektorów (3.2.7), macierz kowariancji
danych wyjściowych przyjmuje postać
p
pp
T
p
T
T
y
λ
λ
λ
λλλ...
0
0
...
...
...
...
0
...
0
0
...
0[
...
2
1
2211
2
1
] ... ttt
t
t
t
S (3.2.12)
Oznacza to, że współrzędne danych wyjściowych będą nieskorelowane, a ich wariancje są
jednocześnie wartościami własnymi.
Z punktu widzenia przetwarzania obrazów za pomocą PCA istotna jest interpretacja
przekształcenia odwrotnego. Z warunku ortonormalności (3.2.7) wynika, że macierz
odwrotną przekształcenia uzyskuje się na drodze prostej transpozycji
ITT T (3.2.13)
11 TTTTT 1 TTI
T 1TTT (3.2.14)
gdzie I jest macierzą jednostkową. Stąd odtworzenie danych wejściowych na podstawie
przekształcenia odwrotnego będzie przebiegać na podstawie następującej formuły
k
p
k
i
k
i
p
i
i
p
iTii y
y
y
y
ttttyTyΤx
1
)(
)(
)(
2
)(
1
21
)()(1)(
...[ ] ... (3.2.15)
Wynika z niej, że każdy wektor danych wejściowych może być wyrażony w postaci
liniowej kombinacji wszystkich wektorów własnych, w której współczynnikami są kolejne
współrzędne wektora danych wyjściowych. W tym sensie występuje tutaj pewne
podobieństwo do szeregu Fouriera – dany wynik eksperymentu może być przedstawiony w
postaci sumy pewnej liczby wektorów własnych branych z mnożnikami („amplitudami”)
ustalanymi w wyniku przekształcenia. Różnica polega na tym, że w szeregu Fouriera zbiór
bazowych funkcji, np. funkcji harmonicznych, jest z góry narzucony, a w przekształceniu
PCA jest on zależny od posiadanego zbioru danych wejściowych, który przy zastosowaniu
PCA w procedurach rozpoznawania można utożsamiać ze zbiorem danych uczących.
Transformacja za pomocą macierzy PCA tych nowych przypadków, które są podobne do
danych uczących powinna dostarczyć wektora znajdującego się w pobliżu
odpowiadających im danych wyjściowych. Odrzucenie pewnej liczby ostatnich
współrzędnych, przy spełnionej własności (3.2.4), może wówczas spowodować skuteczne
zmniejszenie wymiaru, czyli generację ograniczonej liczby cech przeznaczonych dla
rozpoznawania.
3.2.1.2. Metodyka wykorzystania przekształcenia PCA w analizie obrazów
Zastosowanie przekształcenia PCA do rozpoznawania obrazów w kontekście
powyższej interpretacji wymaga przeprowadzenia przetwarzania wstępnego obrazu o(i)
zapewniającego utworzenie wektora, który będzie traktowany jak wielowymiarowy wynik
eksperymentu x(i)
w macierzy danych wejściowych, wg zależności (3.2.1). Sposób
realizacji takiego przetwarzania wskazano na rys. 3.2.1.
Andrzej P. DOBROWOLSKI, Jacek JAKUBOWSKI, Ewelina MAJDA, Jolanta PACAN, Michał WIŚNIOS
56
Rys. 3.2.1. Schemat wytwarzania wektora na podstawie macierzy. Strzałki symbolizują miejsce
zaczepienia i przeprowadzenia operacji „rozciągnięcia” macierzy
Wyznaczenie macierzy przekształcenia wg kroków określonych równaniami (3.2.5)
– (3.2.8) napotyka jednak wówczas na trudne do przezwyciężenia problemy obliczeniowe.
Wstępne przetworzenie obrazów o wymiarach M x M (jak np. niewielkiego obrazu
100x100) wytwarza bardzo długie wektory o długości M 2 elementów. Wymagana do
znalezienia wektorów własnych macierz kowariancji będzie mieć wówczas wymiary M 2 x
M 2, co sprawia, że nieodzowne staje się takie przeformułowanie problemu, aby możliwe
było zastosowanie algorytmów algebry liniowej w sposób efektywny obliczeniowo.
Podstawą do niego jest własność dekompozycji na wektory własne i wartości własne,
zgodnie z którą przy liczbie danych wejściowych (liczbie obrazów) N mniejszej od
wymiaru przestrzeni M 2, liczba wektorów, z którymi stowarzyszone są niezerowe wartości
własne wynosi nie M 2, ale (N – 1). Problem ich wyznaczenia można wówczas zredukować
do problemu dekompozycji „małej” macierzy kowariancji o wymiarach N x N [9].
Upraszczając zapis (3.2.5), określający sposób na obliczenie macierzy kowariancji, do
postaci
T
xN
AAS
1
1 (3.2.16)
w której A jest kolumnową macierzą M 2–wymiarowych wyników eksperymentów z
usuniętą wartością średnią X
] ... )()()[( )()2()1(XxXxXxA N
(3.2.17)
można rozważyć istnienie macierzy proporcjonalnej do macierzy kowariancji danych
transponowanych
AAC
T
N 1
1 (3.2.18)
która w sposób naturalny ma wymiary N x N, gdzie N jest liczbą wektorów. Należy
zwrócić uwagę na czynnik normujący (N – 1), który formalnie z uwagi na liczbę kolumn
M 2
po transpozycji danych powinien wynosić (M 2
– 1). Ze względu na znacząco
zmniejszone w porównaniu do Sx wymiary macierzy C, obliczenie dla niej wektorów
własnych vi i wartości własnych i nie stanowi problemu. Przemnażając zapis definicyjny
dekompozycji macierzy C
iii vvC μ (3.2.19)
przez macierz A otrzymuje się zapis
iii
T
NvAvAAA
μ
1
1 (3.2.20)
z którego wynika, że zgodnie z (3.2.16) iloczyny A vi są wektorami własnymi macierzy
kowariancji Sx
iiix vAvAS μ (3.2.21)
2 13 7 16 6
8 12 15 14 5
3 6 8 7 12
6 11 12 0 1
2 13 7 16 6 8 12 15 14 5 3 6 8 7 12 6 11 12 0 1
Przetwarzanie wybranych danych biometrycznych na potrzeby identyfikacji tożsamości
57
A zatem, po nieskomplikowanym numerycznie wyznaczeniu wektorów własnych vi
„małej” macierzy kowariancji istnieje możliwość równie łatwego wyznaczenia
poszukiwanych wektorów własnych
N
k
k
iii k1
)( )()( XxvvAl (3.2.22)
które dla zachowania własności (3.2.7) należy unormować uzyskując ostatecznie wektory
ortonormalne – składowe macierzy przekształcenia PCA dla obrazów
i
T
i
ii
ll
lt
(3.2.23)
3.2.1.3. Pojęcie twarzy własnych – eigenfaces
Zgodnie z równaniem (3.2.22) wektor własny jest liniową kombinacją wektorów
uzyskiwanych bezpośrednio z obrazów twarzy, z których usunięto obraz średni. Jako
wektor może być on poddany operacji odwrotnej do operacji przedstawionej na rys. 3.2.1 i
dzięki temu dostarczyć obrazu ui podobnego do twarzy, który jako obrazowy odpowiednik
wektora własnego jest nazywany twarzą własną [9]. Na rys. 3.2.2 przedstawiono zestaw 20
fotografii przykładowego zbioru uczącego obejmującego po 4 obrazy twarzy dla 5 osób.
Rys. 3.2.2. Przykładowy zbiór uczący dla 5 osób. Wymiary każdej z fotografii wynosi 100 x 100
Zgodnie z (3.2.22) operacja wyznaczenia twarzy własnych wymaga wykorzystania
obrazu twarzy średniej
Andrzej P. DOBROWOLSKI, Jacek JAKUBOWSKI, Ewelina MAJDA, Jolanta PACAN, Michał WIŚNIOS
58
N
i
i
N 1
)(1oO (3.2.24)
który dla fotografii z rys. 3.2.2 pokazany jest na rys. 3.2.3.
Rys. 3.2.3. Obraz twarzy uśrednionej dla fotografii z rys. 3.2.2
Zbiór twarzy własnych, wyznaczony na podstawie obrazów z rys. 3.2.2
przedstawiono na rys. 3.2.4. Istotny jest jego sens fizyczny. Z punktu widzenia teorii
aproksymacji zbiór ten stanowi bazę (bazę twarzy), na której rozpięta jest przestrzeń
oryginalnych danych, gdyż umożliwia perfekcyjną rekonstrukcję każdego z jej elementów
w oparciu o przeformułowaną postać zależności (3.2.15)
Ouo
k
N
k
i
k
i1
1
)()( ω (3.2.25)
W zależności tej wektor T]ω ... ω ω )(
1
)(
2
)(
1
)( [ i
N
iii
ω jest efektem przekształcenia PCA
danych oryginalnych i może być traktowany jako wektor wag, z którymi brane są twarze
własne przy rekonstrukcji obrazu.
Rys. 3.2.4. Zestaw twarzy własnych dla zbioru fotografii z rys. 3.2.2
Przetwarzanie wybranych danych biometrycznych na potrzeby identyfikacji tożsamości
59
Przykład takiej rekonstrukcji przy malejącej liczbie wykorzystanych twarzy własnych
pokazany jest na rys. 3.2.5. Należy zwrócić uwagę na istniejącą w PCA zdolność do
kompresji informacji – rozpoznawalne cechy osobnicze odtwarzane są w sposób
zadowalający nawet przy n = 5, co oznacza, że przy posiadanym zbiorze twarzy własnych
wystarczające jest przechowywanie tylko 5 wartości liczbowych.
Rys. 3.2.5. Rekonstrukcja jednego z obrazów z danych uczących z wykorzystaniem malejącej
liczby twarzy własnych n
Odtwarzanie cech osobniczych otwiera tym samym możliwość wykorzystania PCA
jako efektywnego generatora potencjalnych cech dystynktywnych obrazu twarzy dla
systemu rozpoznawania.
3.2.1.4. Idea systemu rozpoznawania na podstawie eigenfaces
Ideę funkcjonowania takiego systemu można pokazać na przykładach analizy
konkretnych przypadków osób, których obrazy wzorcowe występują w zbiorze uczącym
oraz osób, których obrazów tam nie ma. Jako przypadek nr 1 rozpatrywane jest ujęcie
osoby nr 5, które nie występuje w zbiorze uczącym. Na rys. 3.2.6 przedstawiono wyniki
przeprowadzonej analizy. Obraz będący aproksymacją zdjęcia oryginalnego w
zadowalający sposób odtwarza cechy osobnicze prezentowanej osoby nawet przy użyciu
tylko 4 twarzy własnych, co przekłada się również na pożądane położenie jego cech
uzyskanych w wyniku PCA w dwuwymiarowej przestrzeni danych uczących. Ilościowa
ocena zgodności badanego obiektu z poszczególnymi klasami może być przeprowadzona
metodą minimalno-odległościową z wykorzystaniem np. odległości euklidesowej. Jej
wyniki przedstawione są w tab. 3.2.1 i wskazują, że badany przypadek znajduje się
najbliżej obiektów tworzących klasę nr 5.
Przypadek nr 2 dotyczy osoby, której fotografie nie występują w zbiorze uczącym.
Próba aproksymacji obrazu twarzy tej osoby za pomocą nawet pełnego zestawu twarzy
własnych (rys. 3.2.7) nie pozwala na wizualne stwierdzenie jej zgodności z oryginałem.
Punkt odpowiadający przypadkowi nr 2 w przestrzeni cech danych uczących nie wpisuje
się tym samym w obszar zajęty przez próbki uczące którejkolwiek z klas, co w sposób
ilościowy wykazuje rozkład odległości przedstawiony w trzeciej kolumnie tab. 3.2.1.
Innymi słowy system rozpoznawania wskaże obecność osoby nieznanej.
Andrzej P. DOBROWOLSKI, Jacek JAKUBOWSKI, Ewelina MAJDA, Jolanta PACAN, Michał WIŚNIOS
60
Rys. 3.2.6. Obraz (zdjęcie po lewej) przypadku nr 1 – osoby z klasy 5, jego aproksymacja
z wykorzystaniem 4 twarzy własnych (zdjęcie po prawej) oraz położenie wektora cech uzyskanych
w wyniku transformacji PCA (czarna kropka) w dwuwymiarowej przestrzeni danych uczących
Rys. 3.2.7. Obraz (zdjęcie po lewej) przypadku nr 2 – osoby nieznanej, jego aproksymacja
z wykorzystaniem wszystkich twarzy własnych (zdjęcie po prawej) oraz położenie wektora cech
uzyskanych w wyniku transformacji PCA (czarna kropka) w dwuwymiarowej przestrzeni danych
uczących
Przedstawiony na rys. 3.2.8 przypadek nr 3 wskazuje na siłę systemu bazującego na
wykorzystaniu twarzy własnych, gdyż reprezentuje zniekształcenie polegające na
częściowym przesłonięciu rozpoznawanego obiektu (w praktyce mogą to być np. okulary).
Zniekształcony obraz przedstawia osobę, której fotografie znajdują się w zbiorze uczącym
w klasie 5 i próba jego rekonstrukcji, mimo znaczącego ubytku treści, kończy się
powodzeniem. Punkt w dwuwymiarowej przestrzeni cech znajduje się w innym miejscu
w porównaniu z rys. 3.2.6, ale jego stopień zgodności z klasą 5, wyrażony miarą odległości
w tab. 3.2.1, pozostaje dalej bardzo wysoki.
Przetwarzanie wybranych danych biometrycznych na potrzeby identyfikacji tożsamości
61
Rys. 3.2.8. Obraz (zdjęcie po lewej) przypadku nr 3 – osoby z klasy 5, jego aproksymacja
z wykorzystaniem wszystkich twarzy własnych (zdjęcie po prawej) oraz położenie wektora cech
uzyskanych w wyniku transformacji PCA (czarna kropka) w dwuwymiarowej przestrzeni danych
uczących
Dwa ostatnie przypadki odsłaniają podstawową wadę prezentowanego podejścia, a
mianowicie brak odporności na obrót i zmianę skali rozpoznawanego obiektu, która
wynika z niespełnionego wymogu przestrzennego dopasowania analizowanych obrazów
traktowanych jako macierze wartości. Przedstawione na rys. 3.2.9 i 3.2.10 obrazy
reprezentują kolejno twarz obróconą oraz zmniejszoną w stosunku do położenia i
rozmiarów twarzy ze zbioru uczącego. Próby aproksymacji nie odtwarzają cech
osobniczych, a odpowiadające im punkty w przestrzeni cech nie wykazują pożądanego
stopnia zgodności badanego obiektu z klasą 5.
Rys. 3.2.9. Obraz (zdjęcie po lewej) przypadku nr 4 – osoby z klasy 5, jego aproksymacja
z wykorzystaniem wszystkich twarzy własnych (zdjęcie po prawej) oraz położenie wektora cech
uzyskanych w wyniku transformacji PCA (czarna kropka) w dwuwymiarowej przestrzeni danych
uczących
Andrzej P. DOBROWOLSKI, Jacek JAKUBOWSKI, Ewelina MAJDA, Jolanta PACAN, Michał WIŚNIOS
62
Rys. 3.2.10. Obraz (zdjęcie po lewej) przypadku nr 5 – osoby z klasy 5, jego aproksymacja z
wykorzystaniem wszystkich twarzy własnych (zdjęcie po prawej) oraz położenie wektora cech
uzyskanych w wyniku transformacji PCA (czarna kropka) w dwuwymiarowej przestrzeni danych
uczących
Tabela 3.2.1. Odległości euklidesowe rozpatrywanych przypadków do poszczególnych klas w
przestrzeni 2D. Kolor czerwony to niepoprawne rozpoznanie
Z uwagi na przedstawione powyżej skutki wynikające z ograniczeń występujących
we wszystkich metodach holistycznych, pożądanymi metodami generacji cech
dystynktywnych są metody odporne co najmniej na zmianę położenia obiektu, jego obrót
i zmianę rozmiarów na obrazie. Teoretycznie możliwe postępowanie polegające na
wyznaczeniu cech obrazów wzorcowych dostępnych w różnych konfiguracjach
rozmiarów, obrotów oraz położeń i porównaniu ich z cechami badanego przypadku jest
jednak postępowaniem o wątpliwej wydajności obliczeniowej, równie wątpliwym efekcie
końcowym i z tego względu powinno być zastąpione jakościowo odmienną metodą
przetwarzania. Pewne nadzieje można również wiązać z odpowiednim przetwarzaniem
przypadek 1
przypadek 2
przypadek
3
przypadek 4
przypadek
5
klasa 1 5.02 3.59 4.38 2.70 3.35
klasa 2 4.34 5.99 5.16 5.68 4.97
klasa 3 3.02 2.75 2.55 0.58 1.45
klasa 4 7.33 2.82 7.43 5.73 4.62
klasa 5 0.29 4.64 0.63 2.18 2.68
Przetwarzanie wybranych danych biometrycznych na potrzeby identyfikacji tożsamości
63
wstępnym, kalibrującym położenie i rozmiar twarzy na obrazie, ale nie jest to zadaniem
trywialnym.
3.2.2. Charakterystyka metod lokalnych na przykładzie algorytmu SIFT
Alternatywne podejście oferują powstałe w ostatniej dekadzie algorytmy dokonujące
detekcji i opisu otoczenia lokalnych punktów obrazu zwanych punktami
charakterystycznymi, które dzięki temu można wykorzystać do porównywania treści
zawartej na obrazach cyfrowych. Do punktów takich zalicza się miejsca występowania
konfiguracji pikseli układających się w pewne specyficzne dla danego obrazu struktury jak
np. punkty narożne, skupiska, czyli obszary o charakterze ciemnych plam na jasnym tle lub
odwrotnie (tzw. bloby), punkty będące zakończeniami linii, punkty występowania
obszarów o kształcie litery T itp.
Najbardziej pożądaną własnością algorytmu oferującego detekcję punktów
charakterystycznych jest jego powtarzalność, którą można określić jako zdolność do
wykrywania tych samych punktów obiektu na obrazie poddanym elementarnym
przekształceniom, takim jak zmiana skali, obrót i przesunięcie, ale i innym jak np. zmiana
perspektywy czy oświetlenia. Zgodnie z teorią Lindeberga [10], detekcję punktów
charakterystycznych przeprowadza się poszukując wartości ekstremalnych pewnych
liniowych lub nieliniowych kombinacji pochodnych obrazów. Ilościowy opis punktu
charakterystycznego jest opisem wielowymiarowym zawierającym informację o rozkładzie
wartości gradientu w jego otoczeniu. Historycznie pierwszą z takich metod, oferującą
kompletny zestaw przekształceń, jest metoda SIFT (ang. Scale Invariant Feature
Transform), opracowana przez Davida Lowe z Uniwersytetu British Columbia w Kanadzie
[11]. Podstawą obliczeń w tej metodzie jest reprezentacja analizowanego obrazu w tzw.
przestrzeni skal, która sama w sobie oferuje potencjalną możliwość opisu obiektu
niezależnie od wielkości jego zobrazowania.
3.2.2.1. Przestrzeń skal i piramida skal
Obiekty na obrazach poddawanych analizie mogą występować na różnych i z góry
nieznanych poziomach szczegółowości, warunkowanych odległością od urządzenia
rejestrującego i jego rozdzielczością, czyli w różnych skalach – rys. 3.2.11.
Rys. 3.2.11. Przykład widoku obiektu w różnych skalach
Z uwagi na występujący najczęściej w praktyce brak informacji o rozmiarach obiektu
na obrazie, jedynym możliwym podejściem jest rozpatrzenie jego reprezentacji za pomocą
wielu dodatkowych obrazów odpowiadających różnym skalom. Obrazy takie tworzy się za
pomocą filtracji dolnoprzepustowej, która redukując szczegóły w analizowanym obrazie
odpowiada operacji odsuwania zawartego na nich obiektu od rejestratora. Rozwinięta na
przełomie lat 80-tych i 90-tych przez Witkina, Koenderinka i Lindeberga teoria przestrzeni
skal [12 - 14] zakłada, że wykorzystanym do tego filtrem powinien być filtr opisany
funkcją Gaussa
Andrzej P. DOBROWOLSKI, Jacek JAKUBOWSKI, Ewelina MAJDA, Jolanta PACAN, Michał WIŚNIOS
64
2
22
2 2exp
2
1),,(
yxyxG (3.2.26)
Otrzymywanie obrazów o zmniejszającym się poziomie szczegółowości może być
zrealizowane na drodze operacji dyskretnego splotu obrazu oryginalnego z maskami
Gaussa o rosnącym parametrze – odchyleniu standardowym, które często jest wprost
nazywane skalą. Zestawienie wszystkich uzyskanych tym sposobem obrazów jest
przestrzenią skal – rys. 3.2.12.
Rys. 3.2.12. Przykład konstrukcji przestrzeni skal
Wymóg użycia filtru Gaussa wiąże się z formalnym spełnieniem szeregu aksjomatów
nakładanych na przestrzeń skal [14 - 15], ale wynika w ogólności z faktu, że jest to jedyny
filtr, który dokonując uproszczenia obrazu oryginalnego nie wnosi dodatkowych
artefaktów polegających na wprowadzaniu przy dużych skalach dodatkowych treści, które
nie występują przy skalach mniejszych. Ponadto uzyskiwanie kolejnych obrazów w
przestrzeni skal często odbywa się z iteracyjnym wykorzystaniem tylko jednego filtru [18].
Splot funkcji Gaussa o parametrze 1σ z inną funkcją Gaussa o parametrze 2σ pozostaje
dalej funkcją Gaussa, której odchylenie standardowe wyniesie 2
2
2
1 σσ . Można zatem
zastąpić filtrację z dużym parametrem dσ iteracyjną filtracją z wykorzystaniem jednego
filtru o małej wartości parametru mσ .
Bezpośrednie wyznaczenie przestrzeni skal dla zadanego obrazu w szerokim zakresie
odchyleń standardowych jest jednak zadaniem czasochłonnym i praktycznie niemożliwym
do realizacji w czasie rzeczywistym. Dlatego często stosowanym podejściem jest
zastosowanie wydajniejszego obliczeniowo algorytmu piramidy wielorozdzielczej.
Piramida taka składa się z kilku tzw. oktaw, z których każda obejmuje sekwencję obrazów
uzyskanych w wyniku zastosowania filtracji Gaussa, przy czym skala ostatniego obrazu w
oktawie jest dwukrotnie większa od skali pierwszego. Dwukrotny wzrost parametru
oznacza dwukrotne zmniejszenie szerokości widma Fouriera obrazu, co daje możliwość
zmniejszenia jego wymiarów na drodze decymacji, która dostarcza tym samym pierwszego
obrazu dla kolejnej oktawy – rys. 3.2.13. Zmniejszone wymiary obrazów w kolejnych
oktawach w sposób znaczący redukują obliczenia niezbędne do filtracji. Ustalenie
jednakowych rozmiarów obrazów w oktawach można uzyskać na drodze dodatkowego
przepróbkowania.
= 1
= 3
= 10
Przetwarzanie wybranych danych biometrycznych na potrzeby identyfikacji tożsamości
65
Rys. 3.2.13. Piramida skal jako wydajna obliczeniowo metoda redukcji szczegółowości obrazu.
Obrazy w pierwszym wierszu (pierwsza oktawa) uzyskane w wyniku filtracji Gaussa
charakteryzują się skalą kolejno: σ2 σ3 σ σ ,,2, . W oktawie drugiej przedstawiono obrazy
o 2-krotnie obniżonej rozdzielczości odpowiadające skalom: σ4 σ32 σ2 σ2 ,,2,
3.2.2.2. Detekcja lokalnych cech obrazu – filtry LoG i DoG
Tworzenie przestrzeni skal nie stanowi celu samego w sobie. Jest to etap pośredni do
wyostrzenia punktów charakterystycznych obrazów możliwych do detekcji
z wykorzystaniem różnych operatorów. Jednym z popularnych operatorów jest detektor
skupisk (blobów) oparty na Laplasjanie. Sam Laplasjan to odpowiednik pochodnej
dwuwymiarowej i dla obrazu traktowanego właśnie jako obiekt dwuwymiarowy I(x)=I(x,y)
jest dla każdej lokalizacji piksela x = (x,y)T sumą drugich pochodnych cząstkowych na
kierunkach x i y:
2
2
2
2 ),(),()],([
y
yxI
x
yxIyxIL
(3.2.27)
Z uwagi na właściwości drugiej pochodnej, Laplasjan charakteryzuje się
uzyskiwaniem wartości ekstremalnych w okolicach krawędzi obrazu. Poprzedzenie
Laplasjanu filtracją Gaussa redukuje oczywisty problem złego uwarunkowania zadania
obliczenia pochodnej w warunkach szumów i przy odpowiednim doborze skali zapewnia
jednocześnie wykrycie i ocenę wymiaru geometrycznego skupiska.
Obie operacje są liniowe, co oznacza, że równoważny wynik przetwarzania uzyska się
na drodze splotu obrazu z Laplasjanem filtru Gaussa:
)],([),(*)],,([)],(*),,([ yxILoGyxIyxGLyxIyxGL σσ (3.2.28)
który z tego powodu określany jest filtrem LoG (ang. Laplacian of Gaussian). Właściwości
filtru LoG jako detektora punktu charakterystycznego łatwo prześledzić dla przypadku
jednowymiarowego, który odpowiada wybraniu jednej z linii obrazu. Na rys. 3.2.14
przedstawiono efekt splotu drugiej pochodnej funkcji Gaussa z parametrem = 1 z dwoma
przebiegami reprezentującymi skupiska o dwu różnych rozmiarach.
Obserwowany przyrost odpowiedzi filtru LoG występujący w warunkach dopasowania
jego szerokości do rozmiarów skupiska świadczy o obecności punktu charakterystycznego
obrazu w skali reprezentowanej przez parametr . Każde skupisko w obrazie
charakteryzuje się pewnymi wymiarami, a tym samym charakterystyczną dla niego skalą.
Stąd jego wykrycie i w konsekwencji dalszy opis następuje na drodze znalezienia
ekstremum odpowiedzi filtru LoG w funkcji skali, czyli na drodze filtracji obrazów
z wytworzonej przestrzeni skal.
Andrzej P. DOBROWOLSKI, Jacek JAKUBOWSKI, Ewelina MAJDA, Jolanta PACAN, Michał WIŚNIOS
66
Rys. 3.2.14. Ilustracja idei detekcji skupiska (blobu) w obrazie za pomocą filtru LoG o wartości
parametru zbliżonej do wymiarów geometrycznych skupiska (przyjęto parametru = 1
i wymiary dwu blobów kolejno ± 3 i ± 1)
Rys. 3.2.15. Przykład detekcji skupiska na podstawie analizy ekstremum odpowiedzi
unormowanego filtru LoGnorm przy rosnącym parametrze (rozmiary skupiska ±4)
Przetwarzanie wybranych danych biometrycznych na potrzeby identyfikacji tożsamości
67
Ze względu na fakt, że występujące w filtrze LoG dwukrotne różniczkowanie funkcji
Gaussa zmniejsza jego współczynniki w stopniu 1/ 2
, to celem uzyskania możliwości
detekcji punktu charakterystycznego na podstawie ekstremum analizowanego
w przestrzeni skal, konieczne jest unormowanie filtru LoG współczynnikiem 2
)],([)],([ 2 yxILoGyxILoGnorm σ (3.2.29)
Dzięki temu zapewniona jest niezmienniczość detekcji punktu charakterystycznego
względem skali. Na rys. 3.2.15 przedstawiona została przykładowa ewolucja odpowiedzi
unormowanego filtru LoGnorm
przy rosnącej skali wskazująca na istnienie punktu
charakterystycznego w skali = 4.
W praktyce obliczeniowej działanie filtru LoG aproksymuje się splotem obrazu z
różnicą dwu filtrów Gaussa, uzyskując tym samym operator nazywany filtrem DoG (ang.
Difference of Gaussian). Dla określonej za pomocą (3.2.26) funkcji Gaussa zachodzi łatwa
do sprawdzenia zależność:
)],,([),,(
σσσ
σyxGL
yxG
(3.2.30)
w której pochodną można przybliżyć ilorazem różnicowym dla wartości i k:
σσ
σσσσ
σ
σ
k
yxGkyxGyxGL
yxG ),,(),,()],,([
),,(. (3.2.31)
Oznacza to, że różnica pomiędzy dwiema funkcjami Gaussa może być w sposób
przybliżony wyrażona zależnością:
)],,([)1(),,(),,( 2 σσσσ yxGLkyxGkyxG (3.2.32)
z której wynika, że zgodnie z (3.2.29) jest ona proporcjonalna do unormowanego filtru
LoG.
Konstrukcję filtru DoG i jego porównanie z filterm LoG przedstawiono na rys. 3.2.16.
Rys. 3.2.16. Idea konstrukcji filtru DoG na podstawie dwu filtrów Gaussa (przyp. = 4 i k = 1.1)
Andrzej P. DOBROWOLSKI, Jacek JAKUBOWSKI, Ewelina MAJDA, Jolanta PACAN, Michał WIŚNIOS
68
Wobec liniowości operacji splotu, operator DoG odpowiada odejmowaniu obrazów
różniących sią skalą, które dostarcza obrazu różnicowego D(x,y,):
),(),,(),(),,(
),()),,(),,((),,(
yxIyxGyxIkyxG
yxIyxGkyxGyxD
σσ
σσσ (3.2.33)
Jeżeli w wytworzonej do celów deskrypcji punktów charakterystycznych przestrzeni skal
zostaną zapewnione skale różniące się między sobą o stały czynnik wyrażony liczbą k, to
zgodnie z (3.2.32) za pomocą obrazów różnicowych D(x,y,) uzyska się przybliżenie
filtracji LoG niezmiennicze względem skali. Tym samym stosowanie dodatkowego
i kosztownego obliczeniowo splotu wyrażonego zależnością (3.2.28) staje się zbędne.
3.2.2.3. Strategia detekcji punktów charakterystycznych w algorytmie SIFT
Detekcja potencjalnych punktów charakterystycznych w algorytmie SIFT polega na
wyszukaniu punktów występowania blobów w rożnych skalach, co sprowadza się do
znalezienia ekstremów w obrazach różnicowych D(x,y,). W tym celu poszczególne
punkty obrazu różnicowego porównywane są z sąsiadującymi punktami tego obrazu (8
pikseli) oraz obrazów różnicowych znajdujących się powyżej i poniżej w przestrzeni skal
(po 9 pikseli w każdym) – rys. 3.2.17. Aby rozważany punkt uznać za ekstremum, jego
wartość musi być mniejsza lub większa od wartości wszystkich 26 sąsiadujących punktów.
Rys. 3.2.17. Ilustracja poszukiwania punktów charakterystycznych w obrazach różnicowych (kolor
czerwony – badany piksel, kolor zielony – sąsiednie piksele w przestrzeni skal)
Wielkością zwracaną przez powyższą procedurę jest położenie ekstremum oraz skala,
w której zostało ono wykryte. Pokrycie wymaganego zakresu skal zapewnia w algorytmie
SIFT specyficzna dla niego konstrukcja piramidy wielorozdzielczej. Zakłada się w niej
wytworzenie w każdej oktawie pewnej liczby (s+1) obrazów. Z punktu widzenia
aproksymacji filtru LoG za pomocą DoG skale kolejnych obrazów powinny różnić się o
stały czynnik k, np. dla pierwszej oktawy: , k, k2, k
3, ..., 2. Oznacza to, że musi
zachodzić (1 < k < 2)
σσσrazy
2.... s
s
kkkk (3.2.34)
skąd wynika, że 2sk oraz sk /12 . Po wytworzeniu wszystkich obrazów w pierwszej
oktawie następuje decymacja obrazu o skali 2 i na jego podstawie wytworzenie drugiej
oktawy ze skalami: 2, k2, k22, k
32, ..., 4. Kolejna oktawa tworzona jest na
podstawie obrazu o skali 4 itd. Wobec konieczności uzyskania detekcji punktów
charakterystycznych we wszystkich skalach (wg metody z rys. 3.2.17) istotne jest, aby
obraz różnicowy D(x,y,) odpowiadający danej skali był stowarzyszony z dwoma
obrazami o sąsiednich skalach ale o tej samej rozdzielczości.
Przetwarzanie wybranych danych biometrycznych na potrzeby identyfikacji tożsamości
69
Rys. 3.2.18. Konstrukcja piramidy skal w algorytmie SIFT.
Andrzej P. DOBROWOLSKI, Jacek JAKUBOWSKI, Ewelina MAJDA, Jolanta PACAN, Michał WIŚNIOS
70
Przy tworzeniu klasycznej piramidy powstanie więc przypadek, w którym obraz
różnicowy w skali 2 z oktawy pierwszej nie będzie stowarzyszony z obrazem w skali
k2 w tej samej rozdzielczości. Jednocześnie w oktawie drugiej dla obrazu różnicowego
w skali k2 nie będzie istniał obraz różnicowy w skali 2 o tej samej zredukowanej
rozdzielczości. Z powyższych względów w algorytmie SIFT zastosowano oktawy
rozszerzone o 2 dodatkowe obrazy, które umożliwiają wyznaczenie brakujących obrazów
różnicowych. Strukturę tak skonstruowanej piramidy skal algorytmu SIFT przedstawiono
na rys. 3.2.18.
Ustalona eksperymentalnie [11] w algorytmie SIFT wartość s = 2 (czyli k = 2 )
okazuje się być wystarczająca z punktu widzenia powtarzalności detekcji punktów
charakterystycznych obrazów poddawanych transformacjom, a w dodatku daje możliwość
zastosowania filtracji iteracyjnej jednym filtrem Gaussa z parametrem . Ze względu na
powtarzalność detekcji optymalną wartością tego parametru jest 1.6 [11].
Lokalizacja ekstremów w przestrzeni skal dostarcza potencjalnych kandydatów na
punkty charakterystyczne. Wiele spośród nich jest punktami niestabilnymi z punktu
widzenia powtarzalności detekcji. Celem odrzucenia punktów o niskim kontraście (a przez
to podatnych na działanie szumu), dokonuje się wśród nich selekcji bazującej na
interpolacji trójwymiarowej funkcji D(x,y,) wokół potencjalnego punktu
charakterystycznego. Interpolacja umożliwia detekcję ekstremum z rozdzielczością sub-
pikselową na drodze obliczenia i przyrównania do zera jej pochodnej. Pozwala
jednocześnie na odrzucenie tych potencjalnych punktów, dla których jej moduł, jako
moduł interpolowanego obrazu różnicowego, przyjmuje małe wartości, czyli punktów
o małym kontraście. Celem odrzucenia punktów występujących na krawędziach (mających
małą powtarzalność określania lokalizacji z tytułu podobieństwa do innych punktów
krawędziowych) badany jest stopień zakrzywienia obrazu różnicowego za pomocą
macierzy drugich pochodnych [11].
3.2.2.4. Niezmienniczość algorytmu SIFT względem obrotu
Każdemu z wyselekcjonowanych punktów charakterystycznych (autor metody określa
je też mianem punktów kluczowych) przypisuje się tzw. orientację, czyli kierunek
względem którego w kolejnym kroku sformułowany będzie ilościowy opis otoczenia
danego punktu. Orientacja ta powinna zmieniać się wraz z obrotem, pozostawiając tym
samym opis otoczenia niezmiennym względem tego przekształcenia. Jako orientację w
algorytmie SIFT przyjęto dominujący kierunek gradientu występujący w otoczeniu punktu
charakterystycznego, który określa się na podstawie tzw. histogramu orientacji.
Wykryta na etapie detekcji punktu charakterystycznego skala wskazuje na obraz L(x,y)
w przestrzeni skal, dla którego przeprowadzane są obliczenia. Dla dowolnego punktu
obrazu w tej skali amplituda m(x,y) oraz kierunek θ(x,y) gradientu mogą być wyznaczone
na podstawie różnicy wartości pikseli:
22 )]1,()1,()],1(),1([),( yxLyxLyxLyxLyxm (3.2.35)
),1(),1(
)1,()1,(),(
yxLyxL
yxLyxLarctgyx
(3.2.36)
Zestawienie lokalnych wartości modułu oraz kierunku gradientu dla przykładowego
punktu charakterystycznego wykrytego w obrazie różnicowym przedstawiono na rys.
3.2.19.
Przetwarzanie wybranych danych biometrycznych na potrzeby identyfikacji tożsamości
71
Rys. 3.2.19. Zobrazowanie gradientu obrazu w otoczeniu punktu kluczowego: A – obraz różnicowy
w skali z zaznaczonym kolorem czerwonym punktem kluczowym, B – powiększony obraz
różnicowy w otoczeniu punktu kluczowego, C – fragment obrazu z przestrzeni skal, odpowiadający
obrazowi różnicowemu B z naniesionymi wartościami i kierunkami gradientu (zaznaczone na
obrazie C osie stanowią odniesienie dla kierunku)
Histogram orientacji dla danego punktu wytwarzany jest na podstawie gradientu w
obszarze wyciętym za pomocą dwuwymiarowego okna Gaussowskiego o szerokości 1.5
raza większej od aktualnej skali – rys. 3.2.20. Histogram ten posiada 36 przedziałów
o szerokości 10º, co daje 360º, czyli cały możliwy zakres orientacji. Wysokość słupków
histogramu jest sumą zmodyfikowanych za pomocą wspomnianego okna wycinającego
modułów gradientów przypadających na dany przedział kierunku. Jego postać dla
analizowanego na rys. 3.2.19 przypadku przedstawiono na rys. 3.2.21.
Rys. 3.2.20. Sposób modyfikacji wartości modułu gradientu branych do obliczeń histogramu
Jako dominujący kierunek traktuje się ten, dla którego wygładzony histogram
przyjmuje wartość maksymalną. Metoda dopuszcza też wytworzenie dodatkowych
kierunków jeśli w histogramie znajdą się lokalne maksima o wysokości co najmniej 80%
maksimum globalnego. Stąd możliwe są przypadki występowania kilku punktów
kluczowych w tej samej lokalizacji, ale o różnych orientacjach. Każdy z nich będzie
oczywiście, z uwagi na różną orientację, opisywany za pomocą innych deskryptorów.
Autor metody szacuje, że występowanie wielokrotnych orientacji dotyczy ok. 15%
punktów kluczowych [11].
moduł gradientu okno wycinające wycięty moduł
gradientu
=
D(x,y,)
I(x,y,)
Andrzej P. DOBROWOLSKI, Jacek JAKUBOWSKI, Ewelina MAJDA, Jolanta PACAN, Michał WIŚNIOS
72
Rys. 3.2.21. Histogram orientacji dla punktu kluczowego z rysunku 3.2.19
3.2.2.5. Opis otoczenia punktu kluczowego
Przedstawione powyżej operacje przypisują wykrytemu punktowi
charakterystycznemu obrazu jego położenie, charakterystyczną skalę oraz orientację. Krok
kolejny to wyznaczenie wysoce dystynktywnego opisu otoczenia takiego punktu. Celem
uzyskania możliwie dużej odporności opisu na zmiany oświetlenia oraz zmiany kierunku
obserwacji obiektu, w algorytmie SIFT zastosowano wektor zawierający wartości
gradientu w otoczeniu punktu kluczowego. Wektor ten tworzony jest na podstawie okna
deskryptora, będącego kwadratowym wycinkiem obrazu z piramidy odpowiadającego skali
wykrytego punktu. Okno to reprezentuje obszar o wymiarach 16x16 pikseli. W oknie
obliczane są kierunki i moduły gradientu, przy czym dla zmniejszenia wpływu punktów
odległych są one mnożone są przez wagowe okno Gaussa o parametrze równym połowie
szerokości okna deskryptora – rys. 3.2.22. Dla zmodyfikowanych w ten sposób wartości
modułu gradientu w każdym z 16 podobszarów o wymiarach 4x4 wyznaczany jest
histogram orientacji na zasadach stosowanych przy wyznaczaniu orientacji punktu
kluczowego. Istniejąca różnica polega jedynie na podziale kąta pełnego na 8 przedziałów,
w których sumowane są odpowiadające im moduły gradientu.
Rys. 3.2.22. Przyjęta w algorytmie SIFT postać okna deskryptora – kwadratowy obszar podzielony
na podobszary o wymiarach 4x4 obejmujące wartości lokalnego gradientu. Zielony okrąg
przedstawia wagowe okno Gaussa
Przetwarzanie wybranych danych biometrycznych na potrzeby identyfikacji tożsamości
73
Deskryptor punktu kluczowego tworzony jest przez wysokości słupków wszystkich 16
histogramów orientacji. Zważywszy na fakt, że każdy z nich obejmuje 8 kierunków,
uzyskuje się dzięki temu wektor o długości 168=128 elementów. Dobór powyższych
wartości – wymiaru i liczby podobszarów oraz liczby przedziałów dla wyznaczenia
histogramu jest podyktowany wynikami eksperymentalnymi [11].
Celem uzyskania niezmienniczości opisu otoczenia punktu kluczowego względem
obrotu, należy zapewnić zgodność współrzędnych okna deskryptora, w którym obliczany
jest gradient z orientacją punktu kluczowego. Na rys. 3.2.23 powyższa idea generacji opisu
punktu kluczowego przedstawiona została dla przypadku pojedynczego punktu
analizowanego na rys. 3.2.19. Powstały opis, z uwagi na zastosowanie gradientu, który
bazuje na różnicach pomiędzy wartościami pikseli (wzory 3.2.35 i 3.2.36) jest dodatkowo
odporny na jednorodne zmiany jasności powstające na skutek dodania do każdego z nich
stałej wartości.
Rys. 3.2.23. Idea opisu otoczenia punktu kluczowego za pomocą lokalnych gradientów. Okrąg
w kolorze żółtym symbolizuje charakterystyczną skalę obrazu, w której dokonano wykrycia
i deskrypcji punktu kluczowego. Współrzędne okna deskryptora są zgodne z orientacją
Jednocześnie, celem uwzględnienia wpływu zmian kontrastu, którego źródłem jest
przemnożenie wszystkich pikseli przez stałą wartość, wynikowy 128-elementowy wektor
podlega normalizacji do wektora o jednostkowej długości. Zmiana wartości pikseli na
skutek mnożenia przez stałą odpowiada analogicznej zmianie gradientu, która na drodze
normalizacji zostaje wyeliminowana.
3.2.2.6. Idea systemu rozpoznawania na bazie deskryptorów algorytmu SIFT
Rozpoznawanie na podstawie deskryptorów punktów kluczowych zasadza się na
przyjęciu postulatu, że są one cechami dystynktywnymi obiektów, które opisują
i w praktyce polega na minimalno-odległościowym dopasowaniu punktów kluczowych
z obrazu wejściowego do punktów obrazu odniesienia lub punktów w bazie wzorców.
Strukturę procedury rozpoznawania twarzy wykorzystującą prezentowany algorytm można
przedstawić jak na rys. 3.2.24.
Andrzej P. DOBROWOLSKI, Jacek JAKUBOWSKI, Ewelina MAJDA, Jolanta PACAN, Michał WIŚNIOS
74
Rys. 3.2.24. Schemat funkcjonalny procedury rozpoznawania twarzy wykorzystującej
algorytm SIFT
Badany obraz twarzy jest poddawany działaniu algorytmu opisu cech lokalnych,
który pełni rolę ekstraktora cech. Zadanie klasyfikacji można rozwiązać na podstawie
badania charakteru histogramu przynależności punktów kluczowych danego obrazu twarzy
do klas osób znajdujących się w bazie. Histogram taki można utworzyć korzystając
z metody najbliższego sąsiada poprzez przypisanie danemu punktowi kluczowemu tylko
jednego numeru klasy z bazy danych, a mianowicie tej klasy, która zawiera punkt
położony najbliżej (wariant 1-NN metody k-NN). Ze względu na możliwą różną liczbę
punktów kluczowych dla różnych obrazów, histogram powinien być unormowany do
postaci wyrażającej częstość względną. Przez częstość względną należy rozumieć liczbę
punktów kluczowych sprzyjających danej klasie podzieloną przez liczbę wszystkich
punktów kluczowych rozpatrywanego obrazu. Częstość względna reprezentuje wartość
prawdopodobieństwa a-posteriori, że dany obraz twarzy należy do jednej z klas bazy osób
znanych. W przypadku, gdy wzorce badanego nowego przypadku znajdują się w bazie, to
należy się spodziewać koncentracji przynależności jego punktów kluczowych do jednej
klasy. Na rys. 3.2.25A przedstawiono histogram dla przypadku, którego rozpoznanie z
wykorzystaniem twarzy własnych zaprezentowane było na rys. 3.2.6.
Rys. 3.2.25. Porównanie histogramów przynależności punktów kluczowych obrazu osoby znanej
(A) i nieznanej (B) do punktów kluczowych zawartych w bazie zawierającej dane 5 osób. Linia
przerywana oznacza możliwy próg decyzyjny
Wzorce obrazów (rys. 3.2.2) znajdują się w bazie danych, dzięki czemu histogram
wykazuje wyraźne maksimum wskazując poprawnie na przynależność do klasy 5.
Jednocześnie, gdy identyfikacji podlega osoba nieznana i niepodobna do wzorców klas, to
wskazanie numerów każdej z nich powinno być jednakowo prawdopodobne. Wynikowy
histogram przynależności będzie więc tym samym zbliżał się do rozkładu równomiernego,
jak to przedstawiono na rys. 3.2.25B, odpowiadającym przypadkowi z rys. 3.2.7.
Porównanie obu typów rozkładów pozwala powołać prosty pojedynczy atrybut różnicujący
– wartość maksymalną histogramu oraz wyznaczyć próg umożliwiający podjęcie decyzji.
Obraz twarzy Ekstraktor cech:
algorytm SIFT
Klasyfikator: metoda
najbliższych sąsiadów
Referencyjna baza
danych
Wynik analizy
Przetwarzanie wybranych danych biometrycznych na potrzeby identyfikacji tożsamości
75
Rozpoznawanie w przedstawionych powyżej dwu przykładach – osoby znanej i nieznanej
przebiega więc poprawnie, podobnie jak to miało miejsce w algorytmie bazującym na
twarzach własnych. Zasadnicza różnica pojawia się w przypadkach, w których położenie
obrazu twarzy na analizowanym obrazie nie odpowiada położeniu twarzy na obrazach
wzorców. Z uwagi na przedstawiony powyżej sposób przetwarzania w metodzie SIFT,
wynikowe deskryptory tworzą wektor cech charakteryzujący się dużym stopniem
niezależności od zniekształceń występujących w obrazie na etapie jego rejestracji.
Przykład takiej niezależności przedstawiony jest na rysunkach od 3.2.26 do 3.2.28
i dotyczy przypadku operacji obrotu, która dyskwalifikowała metodę twarzy własnych
(por. rys. 3.2.9). Należy zwrócić uwagę na wysoką powtarzalność wykrycia punktów
kluczowych prezentowaną na rys. 3.2.26 – duża ich ilość występuje w tych samych
lokalizacjach na obrazach obu twarzy.
Rys. 3.2.26. Zestawienie położenia, skali (wymiary okręgów) oraz orientacji (kierunki promieni
okręgów) punktów kluczowych obrazu oryginalnego (48 wykrytych punktów) i obrazu obróconego
(47 wykrytych punktów)
Na rys. 3.2.27 przedstawiono zestawienie tych 26 par punktów kluczowych, dla
których wzajemna odległość pomiędzy ich deskryptorami jest mniejsza od założonego
progu. Porównanie deskryptorów wybranych punktów przedstawione na rys. 3.2.28
wskazuje na uzyskanie wysokiego stopnia niezmienności ich opisu względem
wprowadzonego zniekształcenia. Dzięki temu liczba punktów kluczowych dopasowana do
punktów właściwej osoby z bazy wzorców może być duża i dostarczać poprawnego
rozwiązania zadania identyfikacji. Podobne wyniki uzyskuje się dla przypadku obrazu o
zmienionej skali, dla którego zestawienie dopasowania punktów kluczowych do obrazu
wzorcowego przedstawione jest na rys. 3.2.29.
Rys. 3.2.27. Ilustracja dopasowania 26 punktów kluczowych obrazów z rys. 3.2.26. Opis liczbowy
prezentuje numery porządkowe wykrytych w obrazach punktów kluczowych.
Andrzej P. DOBROWOLSKI, Jacek JAKUBOWSKI, Ewelina MAJDA, Jolanta PACAN, Michał WIŚNIOS
76
Rys. 3.2.28. Porównanie 128-elementowych wektorów opisujących dopasowane punkty kluczowe
wykryte w obrazach z rys. 3.2.27 w okolicach nosa (punkty 40 i 41), oka lewego (punkty 44 i 44),
oraz oka prawego (punkty 22 i 23).
Rys. 3.2.29. Ilustracja dopasowania punktów kluczowych obrazu oryginalnego z punktami obrazu
pomniejszonego
Tabela 3.2.2. Wysokości słupków histogramów przynależności do klas wygenerowane na
podstawie metody 1-NN i algorytmu SIFT.
Wyniki identyfikacji przypadków za pomocą algorytmu SIFT w przykładowym
zadaniu rozpoznawania prezentowanym w rozdziale 3.2.1, gdzie zastosowano
transformację PCA, zawiera Tabela 3.2.2. Przedstawione w niej wysokości słupków
przypadek 1
przypadek 2
przypadek 3
przypadek 4
przypadek 5
klasa 1 0.06 0.11 0.09 0.08 0.02
klasa 2 0.02 0.09 0.11 0.06 0.02
klasa 3 0.04 0.27 0.10 0.06 0.02
klasa 4 0.04 0.26 0.08 0.12 0.02
klasa 5 0.84 0.27 0.62 0.68 0.92
Przetwarzanie wybranych danych biometrycznych na potrzeby identyfikacji tożsamości
77
histogramu przynależności do klas pozwalają na poprawną identyfikację w każdym
z rozpatrywanych przypadków, a więc również tam, gdzie zastosowanie algorytmu twarzy
własnych (por. tab. 3.2.1) dało niepoprawne wyniki.
3.2.3. Wyniki badań porównawczych – algorytm PCA vs. SIFT
Przedstawione w literaturze badania w obszarze zastosowań metod przetwarzania
obrazów w identyfikacji tożsamości koncentrują się w znacznej mierze na uzyskiwaniu
coraz niższych poziomów błędów rozpoznawania twarzy ze skończonego zestawu twarzy
wzorcowych reprezentujących zamknięty zbiór znanych osób, dostępny najczęściej
w jednej ze standardowych baz danych, np. FERET, Yale, AT&T i innych. Praktyczne
znaczenie metod weryfikowane jest jednak w zadaniu, w którym oddzielną klasę stanowi
klasa osób nieznanych i gdy jej wzorców, wobec ogromu możliwych przypadków, po
prostu nie ma. W niniejszej pracy, finalna ocena identyfikacji tożsamości za pomocą dwu
opisanych wyżej podejść, uwzględniająca szeroki zakres zmienności obrazów
i zmierzająca do opracowania i implementacji działających w trybie „on-line” algorytmów
przetwarzania obrazów, przeprowadzona została w kontekście takiego właśnie zadania.
Badania przeprowadzono na bazie danych powstałej z wykorzystaniem elementów
demonstratora na etapie osiągnięcia przez niego funkcjonalności automatycznej detekcji
obrazu twarzy. Baza objęła zbiór 82 osób o znanej tożsamości, dla których zarejestrowano
po 20 niezależnych fotografii. Przykłady uzyskanych obrazów przedstawione są na rys.
3.2.30.
Rys. 3.2.30. Przykładowe obrazy twarzy z bazy danych zarejestrowane opracowanym
demonstratorem technologii
Zasadniczy problem identyfikacji w systemie rozpoznawania osób jest problemem
klasyfikacji binarnej – badany nowy przypadek należy do bazy danych (np. osób
poszukiwanych) lub do niej nie należy. Powszechnym narzędziem stosowanym do oceny
takiego klasyfikatora w zadanych warunkach oraz wyboru progu decyzyjnego są krzywe
ROC [17],[31]. W dalszej części wykorzystane zostaną standardowe oznaczenia liczby
przypadków z obu kategorii poprawnie i niepoprawnie zaklasyfikowanych, których
zestawienie zawiera tab. 3.2.3.
Tabela 3.2.3. Macierz klasyfikacji – stan faktyczny i ilościowy wynik klasyfikacji
Stan
faktyczny
Wynik klasyfikacji
Osoba
nieznana
Osoba znana
(poszukiwana)
Osoba
nieznana (negative)
liczba TR
(true reject)
liczba FA
(false accept)
Osoba znana –
poszukiwana (positive)
liczba FR
(false reject)
liczba TA
(true accept)
Andrzej P. DOBROWOLSKI, Jacek JAKUBOWSKI, Ewelina MAJDA, Jolanta PACAN, Michał WIŚNIOS
78
Przy zastosowanych oznaczeniach oszacowaniem wartości prawdopodobieństwa
wykrycia osoby znanej pod warunkiem, że rzeczywiście należy ona do klasy osób znanych
będzie miara TAR (True Accept Rate), zdefiniowana jako
FRTA
TATAR
(3.2.37)
Oszacowaniem prawdopodobieństwa fałszywego alarmu, polegającego na
stwierdzeniu przynależności do bazy osób poszukiwanych w sytuacji gdy osoba jest
nieznana będzie wartość FAR (False Accept Rate), określona przez
TRFA
FAFAR
. (3.2.38)
Najczęściej stosowana postać krzywej ROC przedstawia zależność TAR od FAR
wyznaczoną przy założeniu, że próg decyzyjny przyjmuje kolejno wszystkie dostępne w
eksperymencie wartości atrybutu różnicującego, w tym przypadku prawdopodobieństwa.
W celu uniezależnienia otrzymanych wyników od zestawu obrazów użytych w analizie, do
badań zastosowano mechanizm wielokrotnego wykorzystania dostępnych danych
obrazowych. W każdym cyklu losowo wybierano osoby, które tworzyły rozłączne klasy
osób znanych. Spośród wszystkich obrazów twarzy każdej z tych osób losowano 15, które
trafiały do referencyjnej bazy danych, natomiast pozostałe służyły do przeprowadzenia
procesu identyfikacji. Postaci przykładowych uzyskanych krzywych ROC dla przypadku
gdy w bazie znajdują się obrazy twarzy 40 osób znanych przedstawione są na rys. 3.2.31.
Rys. 3.2.31. Porównanie krzywych ROC w procesie klasyfikacji binarnej przy zastosowaniu
przetwarzania obrazu za pomocą metody PCA i SIFT
Przedstawiony wynik wskazuje na znacznie wyższą efektywność wykorzystania
deskryptorów cech lokalnych obrazu w rozpoznawaniu w porównaniu z metodą twarzy
własnych. Przy zapewnieniu odpowiedniej liczby obrazów wzorcowych w bazie osób
znanych możliwe jest uzyskanie błędów rozpoznawania na poziomie pojedynczych
procent [19].
3.3. Rozpoznawanie głosu
Mowa jest naturalnym i jednym z najbardziej efektywnych sposobów komunikowania
się ludzi z otoczeniem. Pod nazwą automatyczne rozpoznawanie w odniesieniu do mowy
mieści się wiele różnych rozwiązań technicznych. Ich wspólną cechą jest przetwarzanie
sygnału mowy za pomocą urządzenia cyfrowego w celu wydobycia wymaganych dla
konkretnych zastosowań informacji.
Przetwarzanie wybranych danych biometrycznych na potrzeby identyfikacji tożsamości
79
Automatyczne rozpoznawanie głosów obejmuje dwie zasadniczo różniące się
procedury: identyfikację i weryfikację. Identyfikacja mówcy jest procesem decyzyjnym,
polegającym na określeniu tożsamości mówcy i wykorzystującym do tego wyłącznie
właściwości sygnału mowy (bez deklarowania przez mówcę tożsamości). Z kolei
weryfikacja to proces decyzyjny, wykorzystujący cechy sygnału mowy do określenia, czy
mówca danej wypowiedzi jest faktycznie osobą, której tożsamość deklaruje. Wynikiem
weryfikacji jest potwierdzenie lub odmowa potwierdzenia deklarowanej tożsamości.
Bardzo istotną charakterystyką systemów rozpoznawania mówców jest ich zależność
od wypowiadanego przez osobę rozpoznawaną tekstu, czyli od ograniczeń narzuconych na
materiał lingwistyczny wypowiedzi. Rozróżnia się systemy rozpoznawania mówców
zależne od tekstu (ang. text-dependent), w których zawartość lingwistyczna materiału
treningowego i testowego jest ogólnie taka sama oraz niezależne od tekstu (ang. text-
independent), gdy zdania testowe różnią się od zdań uczących przynajmniej pod względem
kolejności słów. W szczególności w tym przypadku dopuszcza się możliwość
rozpoznawania mówcy nawet niezależnie od języka wypowiedzi [25].
3.3.1. Model generacji sygnału mowy
Pierwotną i podstawową formą, w której rejestruje się sygnał mowy jest przebieg
czasowy. Dziedzina czasu nie jest jednak najwłaściwsza do przeprowadzania dalszych
operacji ponieważ sygnał mowy charakteryzuje się w niej bardzo dużą redundancją.
Znacznie efektywniejsze z punktu widzenia dalszej analizy jest przetransformowanie
sygnału do dziedziny częstotliwości. Jednym z głównych powodów takiego podejścia jest
próba naśladowania natury, która w toku milionów lat ewolucji wykształciła organ mowy
człowieka, w którym sygnał mowy jest generowany – a następnie odbierany i analizowany
przez organ słuchu – w dziedzinie częstotliwości.
W procesie generacji sygnału mowy bierze udział głośnia oraz trakt głosowy
obejmujący w szczególności jamę ustną i nosową oraz język i usta. Zasadniczą rolę
w procesie mówienia (i oddychania) odgrywają fałdy głosowe, często zwane strunami
głosowymi, a właściwie ich krawędzie czyli więzadła głosowe. Szparę pomiędzy
więzadłami nazywa się szparą głosową (szparą głośni), a wraz z przyległymi fałdami
głośnią. Podczas spokojnego oddychania oraz w czasie artykulacji bezdźwięcznych
elementów mowy więzadła są rozsunięte i powietrze swobodnie przepływa przez szparę
głośni. W czasie wymawiania głosek dźwięcznych więzadła, na skutek dochodzących do
nich impulsów nerwowych, na przemian zwierają się i rozwierają pod naporem sprężanego
powietrza. Obserwowana w tym czasie gołym okiem szpara pomiędzy fałdami głosowymi
jest złudzeniem optycznym spowodowanym bezwładnością wzroku ludzkiego, który nie
jest w stanie zarejestrować szybko następujących po sobie faz zamykania i otwierania
głośni. Obserwacja w zwolnionym tempie pokazuje, że więzadła zwierają się rytmicznie aż
do pełnego zamykania głośni. Proces generacji dźwięku krtaniowego nazywany bywa
fonacją (udźwięcznianiem). Określająca wysokość głosu liczba cykli zwarć i rozwarć
więzadeł na sekundę, zależy od ich długości, grubości i napięcia (a te od płci i wieku).
Wysokość głosu, a ściślej jego częstotliwość podstawowa zmienia się w trakcie mowy w
związku z naturalną intonacją i w przypadku głosu męskiego wynosi średnio 100-130 Hz,
a dla głosu żeńskiego osiąga średnią wartość równą 200-260 Hz [30]. Częstotliwość
podstawowa w mowie zmienia się od 60 do 200 Hz u mężczyzn i od 180 do 400 Hz u
kobiet [30].
Strumień powietrza tłoczony przez głośnię jest modyfikowany w trakcie przejścia
przez trakt głosowy, którego charakterystyka amplitudowo-częstotliwościowa
charakteryzuje się kilkoma maksimami nazywanymi formantami. Częstotliwości tych
maksimów są chwilowymi częstotliwościami rezonansowymi traktu głosowego
Andrzej P. DOBROWOLSKI, Jacek JAKUBOWSKI, Ewelina MAJDA, Jolanta PACAN, Michał WIŚNIOS
80
wynikającymi z bieżącego stanu procesu artykulacji. Przyjmując, że dla quasi-
stacjonarnych fragmentów mowy trakt głosowy jest układem liniowym niezmiennym
w czasie, sygnał mowy s(t) można przedstawić jako splot impulsowego pobudzenia
generowanego w głośni e(t) i odpowiedzi impulsowej traktu głosowego h(t)
)()()( thtets (3.3.1)
Ponieważ transformata Fouriera równomiernie poprzesuwanych impulsów Diraca
n
nTtt 0III (3.3.2)
jest także sumą impulsów Diraca
0
000
2;
Tm
m
(3.3.3)
to widmo dźwięku krtaniowego jest ciągiem impulsów, przy czym jeśli odstęp impulsów
w dziedzinie czasu wynosi T0, to odstęp w dziedzinie częstotliwości wynosi F0 = 1/T0.
Przyjęcie liniowego modelu traktu głosowego, w którym pobudzenie splata się
z odpowiedzią impulsową filtru w dziedzinie czasu pozwala – w świetle (3.3.2) i (3.3.3) –
na stwierdzenie, że widmo fragmentów mowy dźwięcznej jest iloczynem rozłożonych
w odstępie F0 na osi częstotliwości impulsów Diraca (idealizowane widmo impulsów
emitowanych z głośni) i transmitancji traktu głosowego. Skończony czas otwarcia głośni
w trakcie fonacji uwzględniany jest w rozważaniach teoretycznych w postaci dodatkowego
członu w transmitancji traktu głosowego. Podczas praktycznych badań sygnału mowy,
fragmenty sygnału wycinane są za pomocą wybranej funkcji okienkującej, której widmo
splata się z widmowymi impulsami Diraca i w konsekwencji w miejscu spodziewanych
impulsów Diraca pojawia się powielone na każdym z nich widmo okna, co zilustrowano na
rys. 3.3.1.
a) b)
Rys. 3.3.1. Widmo głoski e wypowiadanej głosem męskim: a) okno prostokątne, b) okno
Hanninga.
Na rys. 3.3.2 oraz rys. 3.3.3 przedstawiono odpowiednio widma amplitudowe głoski a
i głoski e wypowiadanych przez mężczyznę i kobietę. Łatwo zauważyć, a ściśle
potwierdziły to przeprowadzone badania wstępne, że na podstawie widma amplitudowego
łatwiej jest odróżnić wypowiadane głoski niż mówców. Istotną informacją rozróżniającą
mówców jest częstotliwość podstawowa dźwięku, która – co oczywiste w przypadku
porównywania wypowiedzi mężczyzny i kobiety – może ewentualnie posłużyć jako
parametr różnicujący. Jednak w przypadku porównania np. dwóch mężczyzn jest to
informacja o niewielkiej użyteczności, tym bardziej, że częstotliwość podstawowa
fluktuuje w takt intonacji zdania.
Przetwarzanie wybranych danych biometrycznych na potrzeby identyfikacji tożsamości
81
Na rys. 3.3.2 oraz 3.3.3 wyraźnie widoczna jest okresowość widma wynikająca
z impulsów dźwięku krtaniowego, można więc obliczyć odwrotną transformatę Fouriera
z modułu widma i na jej podstawie wyznaczyć okres podstawowy pobudzenia
krtaniowego. Ponieważ jednak sygnał jest zmodulowany w amplitudzie przez funkcję
przenoszenia traktu głosowego, korzystniej jest wyznaczyć najpierw logarytm z modułu
widma, a dopiero potem poddać go odwrotnej transformacji Fouriera, gdyż w ten sposób
multiplikatywny związek pobudzenia i traktu głosowego zastąpiony zostanie związkiem
addytywnym, co znacznie upraszcza późniejszą separację obu składników.
a) b)
Rys. 3.3.2. Widma głosek a wypowiadanych: a) głosem męskim, b) głosem żeńskim; zastosowano
okno Hanninga
a) b)
Rys. 3.3.3. Widma głosek e wypowiadanych: a) głosem męskim, b) głosem żeńskim; zastosowano
okno Hanninga
Jedną ze szczególnych metod parametryzacji jest analiza cepstralna opierająca się na
tzw. technice homomorficznej. Cepstrum zespolone zdefiniowane jest następująco
txtcz FF ln1 (3.3.4)
Ponieważ obliczanie logarytmu zespolonego wiąże się z komplikacjami wynikającymi
z konieczności zapewnienia ciągłości fazy, a w przypadku sygnału mowy zasadnicza
informacja zawarta jest w amplitudzie widma, w praktyce wyznacza się najczęściej tzw.
cepstrum rzeczywiste, formalnie zdefiniowane następująco
tstc FF ln1 (3.3.5)
Andrzej P. DOBROWOLSKI, Jacek JAKUBOWSKI, Ewelina MAJDA, Jolanta PACAN, Michał WIŚNIOS
82
co dla sygnałów dyskretnych sprowadza się do postaci
nwnsDFTIDFTnc ln (3.3.6)
i ostatecznie
1
0
2j1
0
2j1
0
2j
eeln1
e1 N
m
N
mnN
n
N
mnN
m
N
mn
nwnsN
mCN
nc (3.3.7)
Ze względu na okresowość jądra transformaty Fouriera, logarytm z modułu widma
amplitudowego C(m) jest okresowy i jednocześnie spełnia zależność
mNCmCmC (3.3.8)
Jest więc funkcją parzystą (symetria względem osi rzędnych), a zatem w jego rozwinięciu
występują tylko funkcje kosinusoidalne (parzyste). Nie ma więc znaczenia czy w ostatnim
etapie zastosuje się prostą czy odwrotną transformację Fouriera, czy po prostu tylko
transformację kosinusową. Pozwala to na prostą interpretację cepstrum rzeczywistego jako
widma zlogarytmowanego widma amplitudowego [22, 29].
Obserwując widmo amplitudowe sygnału mowy można łatwo zauważyć, że jest ono
złożone z czynnika szybkozmiennego wynikającego z pobudzenia i wolnozmiennego,
modulującego amplitudy kolejnych impulsów wynikających z pobudzenia. Podobnie
wygląda interpretacja logarytmu widma amplitudowego, przy czym tu składowa
wolnozmienna nie wymnaża się z amplitudami poszczególnych impulsów pochodzących
od pobudzenia tylko się do nich dodaje. Obliczenie widma takiego sygnału powoduje, że
wolnozmienne przebiegi związane z transmitancją traktu głosowego są położone blisko
zera na osi pseudoczasu, a impulsy związane z dźwiękiem krtaniowym zaczynają się mniej
więcej w okolicach okresu sygnału krtaniowego i powtarzają się co ten okres.
Rys. 3.3.4. Moduły cepstrum rzeczywistego głosek a i e, a) głosem męskim, b) głosem żeńskim.
a) b)
Przetwarzanie wybranych danych biometrycznych na potrzeby identyfikacji tożsamości
83
Cepstra rzeczywiste odpowiadające widmom z rys. 3.3.2 oraz rys. 3.3.3 przedstawione
są na rys. 3.3.4. Informacja związana z transmitancją traktu głosowego jest skupiona
w okolicy czasu zerowego, a zatem w tym obszarze należy poszukiwać zwięzłej informacji
na temat tego co jest mówione.
Natomiast dla czasów powyżej okresu dźwięku krtaniowego informacja o tym co jest
mówione jest zminimalizowana, pozostaje jedynie czytelna informacja dotycząca dźwięku
krtaniowego. Ponieważ dźwięk krtaniowy związany jest ściśle z budową anatomiczną
krtani i głośni, jest wiec zarazem dobrym nośnikiem informacji osobniczej. Łatwo zatem
zauważyć przydatność cepstrum rzeczywistego do celów rozpoznawania mówcy –
informacje o wypowiadanej głosce zacierają się, natomiast zarysowuje się wyraźne
zróżnicowanie w zależności od mówcy.
Automatyczne rozpoznawanie mówcy zwane także automatycznym rozpoznawaniem
głosów, jest procesem realizującym szereg reguł decyzyjnych na mierzalnych cechach
sygnału mowy, mających na celu określenie czy dana wypowiedź należy do określonego
mówcy lub zbioru mówców. Procedurę rozpoznawania osób można podzielić na trzy etapy
(rys. 3.3.5). Blok przetwarzania wstępnego odpowiada za odbiór sygnału z mikrofonu oraz
jego wstępne przetworzenie, uwzględniające poprawę jakości sygnału. W drugim etapie
następuje analiza sygnału mowy, w wyniku, której otrzymuje się wartości parametrów
niosących informację o indywidualnych cechach głosu mówcy niezależne od treści
wypowiedzi. Ostatni etap klasyfikacji dokonuje się na podstawie podobieństwa
uzyskanych parametrów próbek sygnału do ich odpowiedników określonych wcześniej
(w tzw. procesie nauczania) dla poszczególnych osób. Wynikiem działania systemu jest
binarna decyzja o rozpoznaniu mówcy, bądź też jego odrzuceniu [24].
Rys. 3.3.5. Schemat procedury rozpoznawania mówców
3.3.2. Baza danych głosowych
Punktem wyjścia dla automatycznych systemów rozpoznawania mówcy jest przede
wszystkim posiadanie wzorcowej bazy głosów, która będzie wykorzystywania w procesie
uczenia. Aby stworzyć tego typu bazę w pierwszej kolejności należy sporządzić pewnego
rodzaju scenariusz nagrań. Z uwagi na to, że zgodnie z przyjętymi założeniami wynikowy
system ma być systemem niezależnym od treści wypowiedzi, scenariusz powinien
zawierać kilka różnorodnych wypowiedzi dla każdego mówcy. Prezentowany materiał
dotyczy przypadku, w którym na całość scenariusza składały się 4 teksty. Część I to tekst
o charakterze typowego dialogu, jaki może być przeprowadzany np. podczas odprawy
celnej na lotnisku. Zawarte są w nim typowe pytania o dane osobowe podróżującego, cel
podróży czy przewidywaną długość pobytu w danym kraju. Podawane przez badającego
Andrzej P. DOBROWOLSKI, Jacek JAKUBOWSKI, Ewelina MAJDA, Jolanta PACAN, Michał WIŚNIOS
84
dane są w całości fikcyjne. Część II to tekst o charakterze oficjalnym. Część III
scenariusza to tekst przygnębiający. Ostatnią część scenariusza jest tekst o charakterze
żartobliwym − badany ma za zadanie odczytanie dowcipu, z charakterystycznym dla
każdego mówcy intonowaniem poszczególnych wyrazów. Dzięki zastosowaniu otrzymano
szereg wypowiedzi znacznie różniących się pod względem intonacji o charakterze
zbliżonym do spodziewanych wypowiedzi identyfikowanych w przyszłości osób.
Całkowita długość wszystkich nagrań wynosiła około 4 minut.
Rejestracji czasowych przebiegów sygnału akustycznego mowy dokonano
w Instytucie Systemów Elektronicznych Wydziału Elektroniki WAT z zastosowaniem
mikrofonu dynamicznego Monacor DM-500, karty dźwiękowej komputera oraz
oprogramowania Matlab. Przestrzenne zmiany ciśnienia akustycznego generowane przez
mówcę rejestrowane są w pewnym punkcie przestrzeni za pomocą mikrofonu, którego
zadaniem jest zamiana ciśnienia akustycznego na napięcie. O warunkach rejestracji
decydują charakterystyki mikrofonu i przetwornika A/C. Pożądane jest, aby ich jakość
była wystarczająco dobra i aby elementy te nie miały znaczącego wpływu na strukturę
zarejestrowanego sygnału. Podczas badania, odległość mikrofonu od ust osoby mówiącej
wynosiła ok. 10 cm. Dodatkowo mikrofon został wyposażony w osłonę, która zapobiegała
zniekształceniom towarzyszącym sybilantom (tzw. głoski świszczące: s-, sz-, cz-, ć-)
i głoskom wybuchowym (p-, b-, t). Grupa biorąca udział w doświadczeniu składała się
z 45 mężczyzn i 15 kobiet.
W opisywanych w literaturze opracowaniach stosowane są różne strategie dotyczące
wyboru częstotliwości próbkowania. Mniejsza częstotliwość próbkowania oznacza
mniejszą liczbę danych do przetworzenia, ale utratę części informacji. Większa
częstotliwość próbkowania z kolei oznacza więcej danych i niekoniecznie lepszą jakość
rozpoznawania. Projektując system rozpoznawania mówcy należy znaleźć kompromis
między wiernością zapisu sygnału, w kontekście zachowania cech osobniczych, a ilością
danych zajmujących pamięć komputera i wpływających na szybkość obliczeń. Badania
pilotażowe przeprowadzono z sygnałami próbkowanymi z częstotliwościami 44100 Hz,
22050 Hz i 11025 Hz i w ich rezultacie przyjęto wartość 22050 Hz, przy 16-to bitowej
rozdzielczości amplitudowej oraz rejestracji jednokanałowej (monofonicznej).
Z zarejestrowanego materiału badawczego została utworzona baza danych zawierająca
identyfikator mówcy oraz odpowiadające mu próbki sygnału akustycznego.
3.3.3. Przetwarzanie wstępne
Wstępne przetwarzanie sygnału mowy jest bardzo ważnym etapem obróbki danych,
ponieważ poprzedza wprowadzenie sygnału do generatora cech i ma fundamentalne
znaczenie dla jakości procesu identyfikacji mówcy. Głównym celem wstępnej obróbki
sygnału mowy jest jak największe uniezależnienie zarejestrowanych sygnałów
akustycznych od ustawień sprzętu nagrywającego. Na tym etapie przeprowadzana jest
filtracja, a także normalizacja, gdyż te dwie procedury w dużym stopniu niwelują różnice
wynikające z różnych charakterystyk częstotliwościowych torów pomiarowych oraz
z różnych poziomów głośności. W aplikacji zastosowano cyfrowy filtr pasmowo-
przepustowy o skończonej odpowiedzi impulsowej. Zakładając brak zniekształceń
i zakłóceń sygnału pominięto kwestie dotyczące tłumienia odbić, zakłóceń i szumów.
Sygnał mowy jest sygnałem o zmiennej w czasie strukturze częstotliwościowej,
dlatego parametryzacji poddawane są kolejne fragmenty sygnału, a nie sygnał jako całość.
Fragmenty na jakie dzielony jest sygnał nazywane są ramkami (rys. 3.3.6). Najczęściej
długość ramki ∆t powiązana jest z jej przesunięciem (skokiem) τ, zależnością
t3
1 (3.3.9)
Przetwarzanie wybranych danych biometrycznych na potrzeby identyfikacji tożsamości
85
Rys. 3.3.6. Ilustracja przesunięcia ramki – przedstawiono dwa sąsiednie położenia ramki
Jednym z pierwszych zadań jest ustalenie podstawowego parametru generatora cech –
długości ramki. Czasy trwania poszczególnych jednostek fonetycznych są różne i zależne
od określonego mówcy. Jednostki składające się z głosek dźwięcznych charakteryzują się
czasem trwania z przedziału od 10 ms do nawet 200 ms [21]. Zakres zmienności jest więc
znaczny i decyzja dotycząca wyboru długości ramki jest niezmiernie ważna
w projektowanym systemie ASR. Badania dotyczące optymalizacji poszczególnych
parametrów generatora cech przedstawione są w kolejnym podrozdziale.
Podział sygnału na ramki powoduje powstawanie nieciągłości w przetwarzanym
sygnale, co wiąże się ze zjawiskiem przecieku częstotliwości. Aby zminimalizować to
zjawisko sygnał z każdej ramki należy poddać procesowi okienkowania, czyli wymnożenia
przez odpowiednią funkcję okna. Dzięki temu następuje wygładzenie nieciągłości
i usunięcie z widma fałszywych składowych. Zastosowano charakteryzujące się dobrymi
właściwościami okno Hamminga
NnN
nnw
0;
2cos46,054,0)( (3.3.10)
Ze względu na to, że istotna informacja związana z mówcą i niesiona przez dźwięk
krtaniowy zawarta jest w dźwięcznych fragmentach mowy podczas analizy należy brać
pod uwagę jedynie „ramki dźwięczne”. Fragmenty dźwięczne charakteryzują się
regularnym występowaniem maksimów (co okres tonu podstawowego), w przeciwieństwie
do fragmentów bezdźwięcznych, które przypominają sygnał aperiodyczny. Klasyfikacja
fragmentów sygnału mowy na dźwięczne i bezdźwięczne dokonywana jest w systemie za
pomocą funkcji autokorelacji. Aby sprawdzić, czy analizowana głoska jest dźwięczna
należy wyznaczyć drugie istotne maksimum i sprawdzić jego poziom (pierwsze maksimum
występuje oczywiście dla przesunięcia zerowego). Jeżeli jest ono większe od pewnej
wartości odniesienia pv to dany fragment należy uznać za dźwięczny, w przeciwnym
przypadku za bezdźwięczny. Ustalenie optymalnego progu pv to kolejny fragment
procedury optymalizacyjnej opisanej w kolejnym rozdziale.
Dodatkowym ograniczeniem zastosowanym w systemie przy wyborze tzw.
reprezentatywnych dla danego mówcy ramek jest detekcja aktywności mówcy. W trakcie
rejestracji pojawiają się często fragmenty sygnału, podczas których mówca nie jest
aktywny. Zastosowanie kolejnego parametru odpowiadającego za odrzucenie ramek tego
typu ma na celu przede wszystkim eliminację ciszy z nagrania oraz odrzucenie ramek
będących potencjalnie szumem, a więc takich, które mogą powodować błędną ekstrakcje
cech. W takim podejściu w pierwszej kolejności należy określić statystykę sygnału P(n),
na podstawie której będzie dokonywana selekcja, a następnie zastosować kryterium
decyzyjne. Zwykle dokonuje się odniesienia wartości P(n) do pewnego ustalonego progu.
Andrzej P. DOBROWOLSKI, Jacek JAKUBOWSKI, Ewelina MAJDA, Jolanta PACAN, Michał WIŚNIOS
86
W zależności od wielkości na jakiej bazuje selekcja, algorytmu jej wyznaczania oraz
wartości progu, wyniki selekcji będą różne. Zdecydowano się oprzeć na wartości mocy
składowej zmiennej, czyli na wariancji sygnału. Ustalenie dodatkowego parametru, jakim
jest próg mocy pp było więc kolejnym zadaniem optymalizacji wielokryterialnej, który
opisany został w kolejnym rozdziale.
3.3.4. Generacja deskryptorów numerycznych
Automatyczne rozpoznawanie mówcy wymaga stworzenia opisu numerycznego
sygnału mowy w postaci odpowiednio zdefiniowanych deskryptorów jak najlepiej
charakteryzujących mówcę. Tak wygenerowane cechy lepiej lub gorzej opisują głos ludzki
pod względem rozróżniania mówców. Po odpowiedniej selekcji posłużyły one do
stworzenia wektora cech, na podstawie którego dokonywana jest klasyfikacja
(identyfikacja, weryfikacja). Zdecydowano się poszukiwać cech dystynktywnych
uwzględniając zjawiska związane z wewnętrzną strukturą źródła sygnału mowy.
Z punktu widzenia systemu rozpoznawania mówcy najważniejszym etapem jest
generacja odpowiedniego zestawu deskryptorów numerycznych, jak najlepiej
charakteryzujących rozpoznawanych mówców. Celem parametryzacji sygnału mowy na
potrzeby ASR jest takie przekształcenie czasowego przebiegu wejściowego, by uzyskać
możliwie małą liczbę deskryptorów zawierających informacje istotne dla danego mówcy,
przy jednoczesnej minimalizacji ich wrażliwości na zmienność sygnału nieistotną z punktu
widzenia ASR. Wyboru tych deskryptorów dokonano kierując się analizą przedstawionego
wyżej procesu generacji mowy i poszukując elementów związanych z cechami
osobniczymi.
W prezentowanym podejściu generacja cech polega na tworzeniu deskryptorów
w oparciu o trzy techniki wywodzące się z analizy cepstralnej. W każdej z metod najpierw
dokonuje się wstępnej preselekcji cech, a następnie fuzji wszystkich wygenerowanych
deskryptorów.
3.3.4.1. Cechy cepstralne
Klasyczna metoda rozplotu cepstralnego, w przypadku analizy pod kątem
rozpoznawania mówcy, polega więc na usunięciu niepożądanego składnika poprzez
wyzerowanie próbek cepstrum dla pseudoczasu w okolicach zera. Widmo amplitudowe
sygnału mowy złożone jest z czynnika szybkozmiennego (wynikającego z pobudzenia)
oraz czynnika wolnozmiennego (wynikającego z bieżącej konfiguracji narządów
artykulacyjnych) modulującego amplitudę impulsowego sygnału pobudzenia.
Na podstawie wnikliwej analizy cepstrum wywnioskowano, że jako cechy
charakterystyczne należy wybrać częstotliwość podstawową mówcy, która jest
odwrotnością pierwszego maksimum cepstrum (zerowe maksimum występuje dla zerowej
wartości pseudoczasu) oraz wartości 4 kolejnych maksimów unormowane do wartości
pierwszego maksimum.
3.3.4.2. Cechy melcepstralne
Najbardziej popularną metodą parametryzacji sygnału mowy jest metoda
wykorzystująca współczynniki MFCC (Mel-Frequency Cepstrum Coefficients). Jest to
metoda oparta na analizie podpasmowej sygnału filtrami pasmowo-przepustowymi
rozłożonymi równomiernie na melowej skali częstotliwości. Istotną różnicą tej
transformacji jest przeliczenie widma ze skali liniowej na skalę melową, która pozwala na
uwzględnienie nieliniowości postrzegania częstotliwości dźwięku przez człowieka, jak
Przetwarzanie wybranych danych biometrycznych na potrzeby identyfikacji tożsamości
87
również na znaczną redukcję danych. Ogólny schemat tej metody pokazany jest na rys.
3.3.7 [26].
Rys. 3.3.7. Schemat procedury obliczania współczynników MFCC
Pierwszym etapem wyznaczania MFCC jest obliczenie dyskretnego widma kolejnej
reprezentatywnej ramki sygnału za pomocą szybkiej transformaty Fouriera − FFT.
Następnie widmo to jest poddawane filtracji za pomocą filtrów o charakterystykach
inspirowanych fizjologią ludzkiego słuchu. Ucho człowieka reaguje nieliniowo na
częstotliwości odbieranego dźwięku. Szczegóły mowy są łatwiej wykrywalne w zakresie
niskich częstotliwości (do około 1 kHz) niż w zakresie wyższych częstotliwości
słyszalnego spektrum. Wynika z tego, że im wyższa częstotliwość tym gorsza dokładność
i dla kompensacji tego zjawiska niezbędne są szersze pasma. Skala mel została
wyznaczona empirycznie i jest określona zależnością [23]
700
]H[1ln1127]mel[
zff (3.3.11)
W celu nieliniowego przekształcenia widma tworzony jest zbiór filtrów dla kolejnych
zachodzących w połowie na siebie pasm częstotliwości, rozmieszczonych równomiernie
w nieliniowej skali mel. Filtry o kształcie trójkątnym zdefiniowane są w dziedzinie
częstotliwości, co pozwala na wyznaczenie ich odpowiedzi jako sumy iloczynów modułu
widma i przebiegu funkcji trójkątnej. Wektor sygnałów z wyjść wszystkich filtrów jest
logarytmowany, a następnie poddawany dyskretnej transformacji kosinusowej. Otrzymany
wektor MFCC ma długość równą liczbie pasm.
Na etapie generacji cech melcepstralnych zdecydowano się zastosować 30 filtrów
w wyniku czego otrzymano 30 cech dystynktywnych, tj. zastosowano 30 filtrów w paśmie
od zera do połowy częstotliwości próbkowania. Pojawił się więc problem ustalenia, które
z cech MFCC są reprezentatywne jedynie dla wymawianego dźwięku, a które dla samego
mówcy. Cechy powiązane są z treścią lingwistyczną wypowiedzi nie powinny być brane
pod uwagę i podobnie jak w przedstawionej wyżej metodzie rozplotu cepstralnego należy
poszukiwać cech o indeksach wyższych od pewnej wartości granicznej. Zastosowano więc
wstępną preselekcję cech zmniejszając przy tym liczbę elementów wektora MFCC do 7,
przy jednoczesnym minimalizowaniu spadku jego reprezentatywności, kontrolując wyniki
w oparciu o analizę PCA. Metodę tę zastosowano z uwagi na duży początkowy wymiar
wstępnego wektora cech MFCC. Zobrazowanie 30 − wymiarowego wektora cech MFCC
na płaszczyźnie umożliwiło sprawną wstępną preselekcję cech, istotnych z punktu
widzenia modelowanego generatora cech.
3.3.4.3. Ważone cechy cesptralne
Inspiracja ideą metody MFCC spowodowała, że postanowiono rozszerzyć wektor cech
o kolejne cechy określone w dziedzinie cepstrum poprzez zastosowanie w podpasmach
filtrów sumujących. Opracowany algorytm nie poszukuje samych maksimów w pasmach
ich przewidywanego położenia, ale sumuje amplitudy wszystkich prążków z tych pasm
z określoną wagą. Dobór optymalnej charakterystyki filtru (funkcji wagowej) oraz
szerokości pasm były jednym z zadań optymalizacyjnych systemu. W wyniku
optymalizacji wybrano funkcję prostokątną. Jako 4 ważone cechy cepstralne zdefiniowano
Andrzej P. DOBROWOLSKI, Jacek JAKUBOWSKI, Ewelina MAJDA, Jolanta PACAN, Michał WIŚNIOS
88
sumy w czterech kolejnych pasmach począwszy od drugiego, unormowane do sumy
otrzymanej w paśmie pierwszym, odpowiadającym częstotliwości podstawowej.
Na etapie generacji cech zdefiniowano więc 16 deskryptorów numerycznych c1-c16
różnicujących mówców. Należą do nich: częstotliwość podstawowa Fav (c1) będąca
odwrotnością położenia pierwszego maksimum cepstrum, cztery ważone cechy cepstralne
(c2-c5), cztery kolejne maksima cepstrum unormowanego (c6-c9) oraz siedem cech mel-
cepstralnych (c10-c16). Dla każdego mówcy dokonywano uśredniania cech w zbiorze
reprezentatywnych ramek.
3.3.5. Wielokryterialna optymalizacja systemu
W poprzednim rozdziale przedstawiono ogólny schemat projektowanego systemu oraz
metodę generacji cech dla systemu ASR. W zależności od tego, jaką funkcję ma spełniać
dany system (rozpoznawanie treści wypowiedzi bądź tożsamości mówcy), należy dobrać
optymalne parametry układu, uwzględniając przyjętą procedurę ekstrakcji wektora cech
oraz tryb rejestracji. Zadanie polegało na optymalizacji systemu w oparciu o 4 zasadnicze
parametry: długość ramki (∆t) oraz jej przesunięcie (τ), próg dźwięczności ramki (pv)
i próg minimalnej mocy (pp). Optymalizacja systemu odbywała się równolegle z selekcją
cech.
Ze względu na szerokie zakresy zmian wszystkich optymalizowanych parametrów
postanowiono w pierwszej kolejności dokonać wstępnego wyboru wartości parametrów
w oparciu o współczynniki istotności Fischera definiowane zależnością
ji
ji
ij
ccfF
)( (3.3.12)
gdzie ci i cj są wartościami średnimi i-tej i j-tej cechy, natomiast σi oraz σj ich
odchyleniami standardowymi [20].
Obliczeń współczynników istotności Fischera dokonano dla 16 scharakteryzowanych
wyżej deskryptorów, wśród których wyróżniono podklasy kobiet i mężczyzn.
Uwzględnienie w podziale kobiet i mężczyzn nie jest przypadkowe. Należy zwrócić
uwagę, na fakt, iż wartość danego deskryptora może mieć dużą siłę dyskryminacyjną
pomiędzy poszczególnymi kobietami, lecz znacznie mniejszą wśród mężczyzn. Z tego
powodu obliczeń współczynników istotności Fischera dokonano w trzech podklasach:
Kobiet, Mężczyzn oraz w podklasie Wszyscy. Ponieważ klas jest więcej niż dwie,
współczynniki istotności Fischera obliczono dla wszystkich par oraz wyznaczono ich sumę
(sumaryczny współczynnik istotności Fischera). W 1 etapie parametrem optymalizowanym
była długość ramki (∆t). Uzyskane wyniki zobrazowano na rys. 3.3.8.
Z wykresu wyraźnie widać, że dla małej długości ramki (30-40 ms) współczynniki
Fischera są niewielkie. Zdecydowany przyrost następuje w okolicach 40 ms, a dla długości
ramki przekraczającej 90 ms wartości współczynników w podklasach Kobiety i Wszyscy
znacząco spadają. Należało więc dokonać wyboru czasu trwania ramki z przedziału od 40
do 80 ms. Warto podkreślić, fakt, że nie istnieje taka długość ramki, dla której
współczynniki istotności Fischera osiągają maksimum we wszystkich trzech podklasach,
dlatego należało dokonać pewnego wyboru kompromisowego. Wstępnie zdecydowano się
na wartość 55 ms, ale o końcowej wartości tego parametru, jak i wszystkich innych
decydowała również późniejsza selekcja cech, ponieważ generalnie obserwuje się
wzajemne oddziaływanie obydwu tych etapów, w wyniku czego obydwa procesy były
wielokrotnie powtarzane w celu uzyskania optymalnego rozwiązania.
Przetwarzanie wybranych danych biometrycznych na potrzeby identyfikacji tożsamości
89
Rys. 3.3.8. Wykres sumarycznej miary Fischera dla poszczególnych podklas w zależności od
długości ramki analizowanego sygnału.
Kolejnym parametrem, który należało poddać optymalizacji był krok (τ), z jakim
realizowane jest przesuwanie ramki wzdłuż analizowanego sygnału mowy. Podczas
rozwiązania tego problemu należy uwzględnić fakt, że mniejsza wartość przesunięcia daje
większą liczbę ramek, co przekłada się na wydłużenie czasu obliczeń. Poszukiwanie
optymalnej wartości przesunięcia ramki odbywało się jednocześnie z optymalizacją dwóch
pozostałych parametrów (pv oraz pp). Ze względu na dużą ilość informacji zawartej
w danych wejściowych, jakimi w rozważanym przypadku są 11-wymiarowe wektory cech,
zdecydowano się na optymalizację w oparciu o analizę składników głównych (ang.
Principal Component Analysis – PCA). Jak to przedstawiono wcześniej, istotą tej metody
jest zamiana dużej ilości informacji zawartej we wzajemnie skorelowanych danych
wejściowych w zbiór statystycznie nieskorelowanych składników uszeregowanych według
ich ważności. Był to jeden z najbardziej pracochłonnych etapów badań. Prace polegały na
obserwacji zmian położenia wektorów cech poszczególnych mówców na płaszczyznach
PCA1/PCA2 i PCA3/PCA4. Badań dokonano w oparciu o trzy 8-mio osobowe zbiory
mówców [27].
Zgodnie z literaturą wyznaczanie częstotliwości podstawowej metodą cepstralną jest
mniej dokładne, lecz bardziej niezawodne niż metodą autokorelacyjną, w szczególności
przy silnie zaszumionym sygnale mowy [21]. W poszukiwaniu możliwości uzyskania
większej stabilności deskryptorów zastosowano dodatkowe ograniczenie przy wyborze
poprawnych ramek, polegające na porównaniu wartości częstotliwości podstawowej
otrzymanej w oparciu o funkcję autokorelacji oraz w oparciu o cepstrum. Ostatecznie
ustalono, że jeżeli różnice pomiędzy wartościami częstotliwości podstawowej ramki,
wyznaczonymi za pomocą tych dwóch metod różnią się o więcej niż 15%, ramka taka
zostaje automatycznie odrzucona i nie bierze udziału w generacji deskryptorów. Zbiór
zoptymalizowanych wartości parametrów generatora cech określony dla 15 sekundowych
wycinków głosu w oparciu o opracowany generator cech wraz z opisaną w kolejnym
rozdziale selekcją cech przedstawiono w tab. 3.3.1.
Sum
ary
czna m
iara
Fis
chera
Długość ramki analizowanego sygnału [ms]
Kobiety Mężczyźni
Wszyscy
Andrzej P. DOBROWOLSKI, Jacek JAKUBOWSKI, Ewelina MAJDA, Jolanta PACAN, Michał WIŚNIOS
90
Tabela 3.3.1. Zoptymalizowane wartości parametrów generatora cech
Parametr Wartość
Długość ramki ∆t 45 ms
Przesunięcie ramki 10 ms
Próg dźwięczności pv 10%
Próg mocy pp 20%
Próg różnic częstotliwości
podstawowej pf 15%
3.3.6. Selekcja cech
Zdefiniowane na etapie generacji cech deskryptory stanowią maksymalny zbiór
potencjalnych cech dystynktywnych, które mogą być wykorzystane w systemie
automatycznego rozpoznawania wzorca reprezentującego badany obiekt. Badania
prowadzone na świecie pokazują, że nie zawsze użycie maksymalnego zestawu cech
prowadzi do najlepszych wyników, gdyż nie są one jednakowo ważne w procesie
rozpoznania wzorców. Pewne cechy mogą mieć postać szumu pomiarowego pogarszając
możliwość rozpoznania danego mówcy, natomiast cechy silnie skorelowane mają zwykle
niekorzystny wpływ na jakość klasyfikacji dominując nad innymi i tłumiąc w ten sposób
ich korzystny wpływ. Ważnym elementem procesu staje się zatem ocena jakości
deskryptorów i zastosowanie metod selekcji przy tworzeniu optymalnego wektora cech
[25].
W badaniu jakości cech można wyróżnić dwie strategie. W pierwszej bada się każdą
cechę niezależnie od zastosowanej metody klasyfikacji (tzw. filtrowanie cech) oceniając
ich jakość pod kątem różnicowania klas bez uwzględnienia konkretnego klasyfikatora.
Druga to selekcja oparta na ścisłej współpracy z klasyfikatorem. Zdecydowano się na
filtrowanie cech, ponieważ na bieżącym etapie badań nie podjęto jeszcze ostatecznej
decyzji o wyborze konkretnego klasyfikatora [28].
Rys. 3.3.9. Wykres sumarycznego współczynnika istotności Fischera poszczególnych
deskryptorów
Dla uzyskania dokładnej informacji opisującej numeryczne właściwości
dyskryminacyjne poszczególnych parametrów charakteryzujących mówców postanowiono
wstępnie zastosować selekcję opartą na metodzie Fischera [20]. Zgodnie z jej założeniami,
0
0,2
0,4
0,6
0,8
1
1,2
1 3 9 8 11 16 15 14 4 13 7 5 10 2 12 6
War
tość
mia
ry F
isch
era
numer deskryptora
Przetwarzanie wybranych danych biometrycznych na potrzeby identyfikacji tożsamości
91
duża wartości sumarycznego współczynnika istotności Fischera oznacza dobrą zdolność
dyskryminacyjną cechy pomiędzy klasami, a mała oznacza, że wartości cechy należące do
obu klas są rozproszone i potencjalnie przemieszane ze sobą, co dyskwalifikuje ją jako
cechę diagnostyczną. Sumaryczne współczynniki istotności Fischera poszczególnych
deskryptorów przedstawione są na rys. 3.3.9.
Na podstawie otrzymanych wyników trudno jednoznacznie określić, optymalny zbiór
cech wnoszących istotną informację różnicującą. W takim przypadku dodatkowym
rozwiązaniem może stać się analiza rozkładu danych zrzutowanych na dwa główne
składniki w analizie PCA, przy uwzględnieniu różnej liczby znaczących deskryptorów.
Przy stosowaniu tej metody należy pamiętać o normalizacji, czyli sprowadzeniu wartości
wszystkich cech do zbliżonych poziomów. Normalizacja taka może zostać zrealizowana na
wiele różnych sposobów. W przeprowadzonych badaniach cechy zostały unormowane do
wartości maksymalnej ze zbioru wszystkich wartości danego deskryptora.
Niezależnie od sumacyjnej wartości dyskryminacyjnej poszczególnych cech budując
każdy automatyczny system klasyfikacji warto sprawdzić siłę dyskryminacyjną
deskryptorów pracujących w zespole ponieważ często okazuje się, że uwzględnienie
równoległego działania wielu cech na raz może zmienić jakość danej cechy. Pewne cechy
(nawet te gorsze) współpracując ze sobą wzbogacają się nawzajem podnosząc swoja siłę
dyskryminacyjną [25] Przeprowadzono taką analizę śledząc zmiany położeń
poszczególnych wektorów określających mówcę na płaszczyźnie PCA1/PCA2. Na rys.
3.3.10 przedstawiono 2 przykłady takiego rozkładu. Rys. 3.3.10.a dotyczy pełnego zbioru
cech, natomiast rys. 3.3.10.b wyselekcjonowanego zbioru deskryptorów ograniczonego do
11 najlepszych.
Rys. 3.3.10. Rozkład danych zrzutowanych na 2 najważniejsze składniki główne; a) pełny zbiór
deskryptorów, b) zbiór wyselekcjonowanych 11 cech
Na podstawie obliczonych miar Fischera oraz obserwacji zmian położenia wektorów
cech w oparciu o transformację PCA, określono optymalny 11-wymiarowy wektor cech
VP (Voice Print). Dla każdego mówcy uśredniano wyselekcjonowany zbiór cech w oparciu
o 15 sekundowe fragmenty zarejestrowanej wypowiedzi, uwzględniając jedynie poprawne
ramki wybrane na etapie wstępnego przetwarzania (m.in. odrzucano fragmenty ciszy
i fragmenty bezdźwięczne). W wyniku zastosowania generatora cech dla każdego mówcy
uzyskano osiem wektorów VP z 15 sekundowych fragmentów wypowiedzi rozłożonych
równomiernie w przedziale od zera do 4 minut. Optymalny VP opisany jest zależnościami
[28]:
a) b)
Andrzej P. DOBROWOLSKI, Jacek JAKUBOWSKI, Ewelina MAJDA, Jolanta PACAN, Michał WIŚNIOS
92
17,15,13,12,111
9,61
5,3,21
,1
,
1
117
1
,64
1
,32
1
1
imcN
c
icN
c
icN
c
FN
Fc
ji
N
j
N
j
dp
dpj
ji
N
j
ji
N
j
jav
(3.3.13)
gdzie: N – liczba reprezentatywnych ramek,
Fj – częstotliwość podstawowa j-tej ramki, wyznaczana z cepstrum
rzeczywistego,
ci, j – wartość i-tego maksimum cepstrum rzeczywistego j-tej ramki,
dp – zakres sumowania w obrębie kolejnego i-tego maksimum cepstrum,
mci, j – mel-cepstralne cechy dystynktywne j-tej ramki.
Detekcja poszczególnych maksimów odbywała się na zasadzie przeszukiwana wartości
maksymalnych w okolicach przewidywanych maksimów określonych na podstawie
częstotliwości podstawowej.
3.3.7. Klasyfikacja
Klasyfikacja w kontekście automatycznego rozpoznawania mówcy jest ostatnim
etapem projektowania systemów ASR. W celu zbadania skuteczności danego klasyfikatora
należy przeprowadzić szereg testów z wykorzystaniem dwóch zbiorów: treningowego, na
podstawie którego klasyfikator "uczy się" poprawnej klasyfikacji, oraz testowego, na
podstawie którego jest sprawdzana jakość generalizacji badanego klasyfikatora, tzn. jak
dobrze, klasyfikator "nauczony" na zbiorze treningowym, radzi sobie z klasyfikacją
danych ze zbioru treningowego. Oczywiście, aby ocenić jakość klasyfikacji zbioru
testowego, konieczna jest znajomość prawdziwej przynależność jego elementów do klas
i porównanie jej z przyporządkowaniem elementów do klas zaproponowanym przez
klasyfikator.
Mówiąc o zadaniu klasyfikacji, należy w pierwszej kolejności dokonać procesu
normalizacji danych, które będą podlegały rozpoznaniu. Jest to krok dość powszechnie
stosowany, ze względu na fakt, że wartości poszczególnych deskryptorów wchodzących
w skład odcisku głosu mogą dotyczyć różnych wielkości, nierzadko różniących się, co do
skali. W przypadku projektowania automatycznego systemu może to utrudniać właściwą
ocenę wpływu poszczególnych zmiennych na analizowany proces. Zastosowano
najczęściej stosowaną w praktyce standaryzację statystyczną w odniesieniu do każdego
z deskryptorów. W wyniku takiego działania otrzymuje się wektor cech, którego wartość
średnia jest zerowa, natomiast odchylenie standardowe równe jedności, dzięki czemu
wszystkie cechy mają porównywalny wpływ na analizowany proces.
Bazę danych czyli zbiór dostępnych próbek głosu dzieli się na dwa zbiory. Pierwszym
jest zbiór treningowy, z którego budujemy model. Drugi zbiór, zwany zbiorem testowym
służy do testowania modelu. Model uczący może być używany do przewidywania klas
nowych próbek, dla których atrybut decyzyjny jest utracony lub nieznany. Dwuetapowy
proces budowy klasyfikatora składa się z fazy treningowej zwanej uczeniem (klasyfikator
jest budowany w oparciu o zbiór treningowy danych) oraz fazy testowania, polegającej na
weryfikacji dokładności (jakość) klasyfikatora w oparciu o testowy zbiór danych.
Zbiór modelowy powinien zawierać zdecydowanie więcej próbek niż zbiór testowy.
Zazwyczaj przyjmuje się, iż zbiór modelowy powinno tworzyć pomiędzy 70%, a 75%
Przetwarzanie wybranych danych biometrycznych na potrzeby identyfikacji tożsamości
93
całkowitej liczby dostępnych próbek. W projekcie zdecydowano się przyjąć podział 3:1.
W wyniku tego dla każdego z 50 mówców otrzymano 30 wektorów zaliczonych do bazy
danych uczących oraz 10 wektorów zakwalifikowanych jako dane testowe.
W pierwszym etapie badań zdecydowano się na analizę dwóch nieparametrycznych
metod klasyfikacji: metody k najbliższych sąsiadów oraz metody najbliższej średniej.
Wybór ten był podyktowany przewidywanym trybem pracy systemu ASR w czasie
rzeczywistym, do czego wymagane są niskie nakłady obliczeniowe algorytmu klasyfikacji.
Metoda k najbliższych sąsiadów lub krócej metoda k-nn (ang. k nearest neighbours)
polega na obliczeniu odległości pomiędzy odpowiednimi parami wektorów (aktualnie
analizowanego wektora cech z każdym z wektorów wzorcowych, osobno dla każdego
mówcy z bazy). Kolejnym krokiem jest wybranie k wektorów charakteryzujących się
najkrótszą odległością badanego punktu od każdego wektora wzorcowego z bazy (osobno
dla każdego mówcy), a następnie ich zsumowanie. Nowy wektor zostaje
przyporządkowany do klasy do której suma odległości jest najmniejsza. Dodatnia liczba
naturalna k jest parametrem opisywanej metody k-nn. Zadaniem było dobranie jej
optymalnej wartości w odniesieniu do opracowanego algorytmu. Drugim równie często
wybieranym parametrem jest zastosowana metryka. Z prowadzonych na świecie badań
wynika, że rodzaj metryki nie ma istotniejszego wpływu na poprawność w przypadku, gdy
dokonano wcześniejszej standaryzacji poszczególnych deskryptorów. W związku z tym
zdecydowano się zastosować standardową odległość euklidesową.
Drugą analizowaną metodą jest metoda najbliższej średniej. Polega ona na obliczaniu
odległości pomiędzy aktualnie testowanym wektorem oraz średnimi wektorami
przypisanymi do każdego mówcy z bazy danych. W metodzie tej można wprowadzić
parametr a decydujący o dozwolonej rozległości klasy. Oznacza to, że przy obliczaniu
średniego wektora danej klasy odrzucane są te wektory składowe, których wartości
spełniają poniższą zależność
add sr max (3.3.14)
Drugi etap badań polegał na dokonaniu szeregu eksperymentów mających na celu
dobranie optymalnej liczby k dla metody k najbliższych sąsiadów i parametru a dla metody
najbliższej średniej oraz w konsekwencji wybór najlepszego klasyfikatora dla
projektowanego systemu. Odpowiednie wyniki zestawiono w tab. 3.3.2 oraz tab. 3.3.3.
Tabela 3.3.2. Liczba błędnie zaklasyfikowanych wektorów w funkcji k najbliższych sąsiadów
k 1 2 3 4 5 6 7 8
Liczba błędów 12 12 12 11 14 16 18 20
Tabela 3.3.3. Liczba błędnie zaklasyfikowanych wektorów w funkcji parametru rozległości klasy a
a 1 1,5 2 2,5 3 4 5
Liczba błędów 38 37 40 40 40 40 40
Przeprowadzona analiza pozwoliła na jednoznaczne wskazanie metody klasyfikacji
w kontekście projektowanego systemu. Analizując wyniki przeprowadzonych badań
można stwierdzić, że metoda k najbliższych sąsiadów daje znacząco mniejszą liczbę
niepoprawnych klasyfikacji w porównaniu do metody najbliższej średniej.
Zgodnie z wynikami eksperymentów wartość k = 4 jest minimum globalnym
optymalizowanej funkcji, a dalsze zwiększanie tego parametru powoduje jedynie
zwiększanie się liczby niepoprawnych klasyfikacji. Można również zauważyć, że dla
metody najbliższej średniej odrzucanie punktów skrajnych nie daje pozytywnych efektów,
Andrzej P. DOBROWOLSKI, Jacek JAKUBOWSKI, Ewelina MAJDA, Jolanta PACAN, Michał WIŚNIOS
94
jest to najprawdopodobniej związane z nieznanym rozkładem tych danych w przestrzeni
11-wymiarowej. W badanym przypadku finalnie dochodzimy więc do metody
4 najbliższych sąsiadów.
W oparciu o przeprowadzone eksperymenty opracowano klasyfikator działający wg
metody 4 najbliższych sąsiadów, który charakteryzuje się błędem 2,2% (liczba błędnych
klasyfikacji 11 na 500 sprawdzanych wektorów). Jest to niewątpliwie satysfakcjonujący
wynik dla tego typu systemów. Mimo zadawalających wyników zdecydowano się
dodatkowo na usprawnienie opracowanego algorytmu w celu zmniejszenia błędu
klasyfikacji wynikającego z zastosowania metody 4 najbliższych sąsiadów
i przeprowadzili dodatkowe badania, które pozwoliły na ocenę możliwości zastosowania
dodatkowego klasyfikatora sieci neuronowej SVM. Sieć SVM nie została jednak
wykorzystana początkowo, przede wszystkim ze względu na długi czas obliczeń, w
odniesieniu do wszystkich 50 klas. Zdecydowano się jednak na próbę przebadania sieci
SVM w strategii „jeden przeciw wszystkim” w ograniczonym zbiorze klas.
W pierwszej kolejności należało więc opracować pewną regułę decyzyjną, która
odpowiadałaby za wybór klas, poddawanych działaniu sieci SVM. Po wnikliwej analizie
wyników otrzymanych w oparciu o metodę 4 najbliższych sąsiadów wyciągnęli wnioski,
że do wyboru klas posłużą się kryterium mówiącym o tym, że jeżeli odległość do drugiej
z kolei najbliższej klasy jest większa o 25% od odległości do klasy najbliższej, to za
zwycięską uznaje się klasę pierwszą i niewskazane jest stosowanie dodatkowych technik
klasyfikacyjnych. Przyjęcie progu 25 % było efektem analizy błędów otrzymanych metodą
4 najbliższych sąsiadów w oparciu o bazę 500 punktów z grupy testowej. Większość
błędów wystąpiła gdy
12 25,1 dd (3.3.15)
W przypadku, gdy odległość ta jest mniejsza, współdecyduje głosowanie 4 sieci SVM.
Do analizy wybrano wszystkie przypadki błędnie zaklasyfikowane metodą odległościową
(11) oraz pozostałe 29, które spełniają warunek (3.3.4) – razem 40 przypadków.
W przypadku sieci liniowej analiza polegała na dobraniu stałej regularyzacji C w zakresie
[1, 2, 4, 8, 16, 100, 1000]. Natomiast w przypadku sieci nieliniowej testowano sieci
z jądrem gaussowskim, a doborowi podlegały parametry C i σ. Niestety pomimo
zastosowania zarówno liniowej jak i nieliniowej sieci SVM wyniki nie dały oczekiwanych
rezultatów. Sieć liniowa powodowała, że liczba błędów przekraczała pierwotną liczbę
wynikającą z metody minimalno-odległościowej. W przypadku zastosowania sieci
nieliniowej okazało się, że zbyt dobrze dopasowywała się ona do danych uczących, co
powodowało nie tylko istotny przyrost błędów w stosunku do sieci liniowej, ale również
nieakceptowalny wzrost czasu obliczeń. Być może lepszym rozwiązaniem byłoby
zastosowanie strategii „jeden przeciw jednemu”. Jednak została ona odrzucona, ponieważ
w ocenie twórców w tego typu systemach jest ona nie do przyjęcia, głównie ze względu na
fakt, iż dodawanie każdej nowej osoby do bazy wymagałoby konstrukcji nowych
klasyfikatorów, a to znacznie obciążyłoby system, który wedle założeń ma działać w trybie
on-line. Poza tym pojawia się dodatkowo problem danych uczących, których w owej
strategii jest znacznie mniej, bo w każdym przypadku tylko z dwóch klas. Uzyskane
wyniki spowodowały odrzucenie koncepcji zastosowania sieci SVM jako dodatkowego
klasyfikatora do polepszania procedury rozpoznawania.
3.4. Demonstrator technologii multibiometrycznego systemu rozpoznawania osób
Materialnym efektem zaprezentowanych prac z obszaru technologii
multibiometrycznej było opracowanie i wykonanie demonstratora systemu, pozwalającego
Przetwarzanie wybranych danych biometrycznych na potrzeby identyfikacji tożsamości
95
na bezkontaktową identyfikację tożsamości na podstawie m.in. obrazu twarzy i sygnału
mowy. Jego zasadniczym zadaniem jest przesiewowa analiza obrazów i dźwięków
rejestrowanych w określonej strefie kontrolnej w celu identyfikacji osobników potencjalnie
niebezpiecznych, których fotografie i próbki mowy zebrane są w odpowiedniej bazie
danych. Technologia ta została opracowana w ramach projektu pt. "Multibiometryczny
system identyfikacji osób do przeciwdziałania zagrożeniom terrorystycznym"
finansowanego przez Narodowe Centrum Badań i Rozwoju w latach 2010-2012. Pełny
zespół badawczy uczestniczący w opracowywaniu systemu składał się, oprócz autorów
niniejszego opracowania, z następujących, podanych w kolejności alfabetycznej osób:
Z. Biniek, T. Dąbrowski, R. Galewski, A. Jachocki, J. Kaźmierczak, I. Krysowaty,
K. Kwiatos, R. Maison, P. Niedziejko, W. Olchowik, P. Ostrowski, S. Osowski, J. Paś,
M. Wierzbowski, R. Wrona.
Opracowany demonstrator sprzętowo składa się z trzech modułów. Pierwszy z nich to
moduł rejestracyjny, drugi to moduł prezentacyjny natomiast trzeci to moduł serwera
multibiometrycznego. Na rys. 3.4.1 został przedstawiony widok modułu prezentacyjnego
demonstratora multibiometrycznego. W jego skład wchodzą elementy składowe
zaznaczone na rysunku następującymi numerami:
1. Obrotowa megapikselowa kamera IP PTZ,
2. Paraboliczny mikrofon kierunkowy,
3. Statyczna kamera IP,
4. Maszt instalacyjny do kamer IP oraz mikrofonu,
5. Zestaw komputerowy I7,
6. Optyczny czytnik linii papilarnych BioMini,
7. Obudowa typu „Flightcase”.
Rys. 3.4.1. Demonstrator systemu multibiometrycznego
W ramach platformy programowej w skład demonstratora weszły dwie aplikacje
bazodanowe działające na SZBD PostgreSQL (napisane w języku C# na platformie .NET
4.0). Pierwszą z nich jest „Rejestrator”, służący do akwizycji danych podejrzanych osób
oraz ich ostatecznej identyfikacji. Identyfikacja ta może być przeprowadzona w oparciu o
autonomiczne działanie każdego z zaimplementowanych algorytmów jak i na bazie ich
fuzji (rys 3.4.2). Posługując się tym oprogramowaniem istnieje możliwość akwizycji
następujących danych biometrycznych: zdjęcie twarzy, odciski palców, próbki dźwiękowe
głosu, próbka kodu DNA (dostarczona w formie cyfrowej w postaci pliku).
Andrzej P. DOBROWOLSKI, Jacek JAKUBOWSKI, Ewelina MAJDA, Jolanta PACAN, Michał WIŚNIOS
96
Rys. 3.4.2. Widok okna identyfikacji podejrzanego przy poprawnym rozpoznaniu na podstawie
poszczególnych zastosowanych cech biometrycznych
Druga z wykonanych aplikacji nazwana została „Guard”. W wyniku jej działania
uzyskuje się automatyczne rozpoznawanie osób w czasie rzeczywistym na podstawie
obrazu twarzy dostarczonego z podłączonych do demonstratora lub sieci Ethernet kamer
(rys. 3.4.3). W obecnej wersji aplikacja ta umożliwia pracę prowadzoną w osobnych
wątkach z maksymalnie czterema kamerami. Każdy wątek ma swoje własne połączenie z
bazą danych i własne obiekty do śledzenia i tworzenia wektorów twarzy. Rozszerzenie
systemu można uzyskać poprzez rozbudowę o kolejne stacje robocze połączone z
serwerem multibiometrycznym, zawierającym centralną bazę danych oraz pliki
klasyfikatorów. Dodatkowo, w celu zwiększenia bezpieczeństwa, aktualne pliki
klasyfikatorów są przechowywane tymczasowo na każdym z demonstratorów (każdej
stacji roboczej) dzięki czemu system umożliwia pracę również w warunkach braku
komunikacji z serwerem.
W procesie detekcji twarzy używany jest klasyfikator kaskad Haara (Haar Cascade
Classifier). Użytkownik demonstratora ma możliwość zmiany domyślnych parametrów
detekcji twarzy takich jak np.:
prędkość zwiększania skali – w procesie automatycznej detekcji twarzy, obraz
przeszukiwany jest wielokrotnie z różną wielkością fragmentów detekcji. Im parametr
ten jest większy, tym proces detekcji trwa krócej jednak, mniej dokładnie.
próg minimalnego sąsiedztwa – parametr ten określa minimalną sąsiedztwo np. dwóch
twarzy kiedy to można je uznać za jedną twarz.
minimalna wielkość twarzy – parametr określający minimalną wielkość wykrytej
twarzy poddawaną procesowi identyfikacji, od wartości tej startuje detekcja
w klasyfikatorze kaskad Haara.
Przetwarzanie wybranych danych biometrycznych na potrzeby identyfikacji tożsamości
97
Rys. 3.4.3. Efekt działania aplikacji „Guard” – wskazanie osoby z bazy danych (obwódka twarzy
w kolorze czerwonym + identyfikator osoby)
W celu odciążenia procesora zastosowany został autorski system śledzenia twarzy,
dzięki któremu po rozpoznaniu identyfikowanej osoby następuje śledzenie jej twarzy do
momentu wyjścia poza pole widzenia kamery oraz do momentu wystąpienia braku
spełniania zadeklarowanych warunków co do jakości i wielkości twarzy. Śledzenie twarzy
zostało tak zaprojektowane, aby umożliwić użytkownikowi deklarację odpowiednich
parametrów w zależności od środowiska pracy. Do parametrów tych w szczególności
zalicza się:
Próg uznania twarzy – liczba pikseli pomiędzy współrzędnymi badanej twarzy
a wszystkimi innymi wcześniej wykrytymi. Jeśli odległość ta jest większa niż ten
próg, badana twarz uznawana jest za nową. Im wartość tego parametru jest niższa, tym
częściej następuje proces identyfikacji dla jednej twarzy.
TTL Twarzy (Time to Live) – lista wykrytych twarzy oprócz współrzędnych zawiera
również atrybut TTL. Atrybut ten jest zmniejszany o 1 po każdym badaniu, w którym
nie nastąpiło porównanie z daną twarzą.
Czas zniknięcia twarzy – czas po którym współrzędne wykrytej twarzy są usuwane
z listy twarzy.
Identyfikacja w systemie odbywa się po stronie bazy danych. Jej idea została
omówiona w poprzednich rozdziałach. Po przeprowadzeniu procesu identyfikacji
podejrzanej osoby, użytkownik ma możliwość podglądu szczegółowych wyników tego
procesu m.in. informacji o podejrzanym oraz listy osób najbardziej podobnych do
identyfikowanego. Na szczególną uwagę w opracowanym systemie zasługuje nowatorska
multibiometryczna baza danych. Cechą szczególną wyróżniającą ją spośród innych tego
typu rozwiązań są przede wszystkim jej rozmiary. Zawiera on dane multibimetryczne
ponad stu osób którymi są w szczególności: obrazy twarzy, próbki głosu, odciski palców,
dystynktywne fragmenty kodu DNA. Zebrane dane dotyczą osób w różnym wieku –
zarówno kobiet, jak i mężczyzn.
Podsumowując – omawiany demonstrator to zaawansowany technologicznie system
przeznaczony zarówno do prezentacji technologii, jak i do prowadzenia badań i testów.
Zastosowanie w nim wysokiej jakości urządzeń rejestrująco-pomiarowych oraz
omówionych w poprzednich rozdziałach złożonych algorytmów przetwarzania, ekstrakcji
Andrzej P. DOBROWOLSKI, Jacek JAKUBOWSKI, Ewelina MAJDA, Jolanta PACAN, Michał WIŚNIOS
98
cech dystynktywnych oraz klasyfikacji wzorców determinuje jego poprawną pracę.
Niezwykle istotną funkcjonalnością jest możliwość edycji parametrów pracy, zarówno
poszczególnych, zaimplementowanych algorytmów jak i całego systemu, dzięki czemu
uzyskuje się możliwość modernizacji i poprawy parametrów pracy demonstratora w
zależności od zastosowań.
3.5. Podsumowanie
W niniejszym rozdziale zaprezentowano problematykę związaną z identyfikacją
biometryczną przy użyciu algorytmów rozpoznawania twarzy i głosu. Szerokie spektrum
problemów spotykanych podczas prowadzenia procesu identyfikacji tzw. utajonej oraz
brak dostępnych na rynku wiarygodnych algorytmów i systemów multibiometrycznych
były dla autorów inspiracją do poszukiwania rozwiązań w tym obszarze.
Przeprowadzone badania i eksperymenty wykazały, iż zastosowanie technik
multibiometrycznych w systemach identyfikacji osób powoduje zwiększenie poziomu
wiarygodności tego procesu. Stwierdzenie to skłania do dalszego rozwijania tematyki
multibiometrycznych systemów identyfikacji. Dalszym kierunkiem rozwoju tej metody
będzie zwiększenie autonomiczności systemu oraz takie jego rozproszenie, aby uzyskać
jak największą niezależność od reakcji osoby identyfikowanej. Perspektywiczne badania
skupione zostaną w szczególności na takiej organizacji procesu akwizycji danych
biometrycznych oraz metadanych, aby proces identyfikacji przebiegał całkowicie
nieinwazyjnie (zupełny brak wiedzy o prowadzeniu takiego procesu u osoby
identyfikowanej). Najprawdopodobniej oznaczać to będzie także rozszerzenie systemu o
rozpoznanie na podstawie cech behawioralnych. Osiągnięte wyniki mogą stać się istotnym
przyczynkiem dla opracowania jeszcze bardziej skutecznych i efektywnych metod analizy
danych multibiometrycznych.
Nie sposób również nie wspomnieć, iż identyfikacja i weryfikacja to jedynie wybrane
obszary, w których możliwe jest zastosowanie biometrii. Nierzadko zagadnienia te
poruszane są przy prezentowaniu problemu analizy stanu emocjonalnego, aż po
zastosowania medyczne (np. identyfikacja zaburzeń i schorzeń).
Literatura
[1] Smiatacz M., Malina W., Automatyczne rozpoznawanie twarzy – metody, problemy,
zastosowania, Techniki Komputerowe, t. 42, nr 1, s. 107-128, Warszawa 2008.
[2] Brunelli R., Poggio T., Face Recognition: Features versus Templates, IEEE Trans.
on Pattern Recognition and Machine Intelligence, v. 15, No. 10, 1993, pp. 1042-
1052.
[3] Belhumeur P., Hespanha J., Kriegman D., Eigenfaces vs. Fisherfaces: Recognition
Using Class Specific Linear Projection, IEEE Trans. on Pattern Recognition and
Machine Intelligence, v. 19, No. 7, 1997, ss. 711-720.
[4] Lowe D., Distinctive image features from scale-invariant keypoints, Int. Journal of
Computer Vision, vol. 60, No. 2, 2004, ss. 91-110.
[5] Pawlik P., Mikrut S., Porównanie dokładności wybranych metod dopasowania
obrazów zdjęć lotniczych, Archiwum Fotogrametrii, Kartografii I Teledetekcji, vol.
17b, 2007, ss. 603-611.
Przetwarzanie wybranych danych biometrycznych na potrzeby identyfikacji tożsamości
99
[6] Ilkyun J., Sewoong J., Youngouk K., Mobile robot navigation using difference of
wavelet SIFT, Second International Conference on Machine Vision, Dubai, grudzień
2009, ss. 286-292.
[7] Geng C., Jiang X., SIFT features for face recognition, Second IEEE International
Conference on Computer Science and Technology, sierpień 2009, 598-602.
[8] Krizaj J., Struc V., Pavesic N., Adaptation of SIFT features for face recognition
under varying illumination, Proc. of the 33rd
International Convention MIPRO,
Opatija, 2010, ss. 691-694.
[9] Turk M., Pentland A., Eigenfaces for recognition, Journal of Cognitive
Neuroscience, Vol. 3, Nr 1, 1991, ss. 71-86.
[10] Lindeberg T., On scale selection of different operators, VIII Scandinavian
Conference on Image Analysis, Tromso, maj 1993, ss. 857-866.
[11] Lowe D., Distinctive image features from scale-invariant keypoints, Int. Journal of
Computer Vision, vol. 60, No. 2, 2004, ss. 91-110.
[12] Koenderink J., The structure of images, Biological Cybernetics, Nr 50, 1984, ss.
363–370.
[13] Witkin, A. P. Scale-space filtering, Proc. 8th Int. Joint Conf. Art. Intell., Karlsruhe,
Germany, 1983, ss. 1019–1022.
[14] Lindeberg T., Scale-space theory: a basic tool for analyzing structures at different
scales, Journal of Applied Statistics, Vol. 21, Nr 1-2, 1994.
[15] Babaud J., Witkin A. P., Baudin M., Duda R. O., Uniqueness of the Gaussian kernel
for scale-space filtering, IEEE Trans. Pattern Anal. Machine Intell., Vol. 8, Nr 1, ss.
26–33, 1986.
[16] Weickert J., Linear scale space has first been proposed in Japan, Journal of
Mathematical Imaging and Vision, Vol. 10, Nr 3, ss. 237–252, 1999.
[17] Koronacki J., Ćwik J., Statystyczne systemy uczące się, Akademicka Oficyna
Wydawnicza EXIT, Warszawa 2008.
[18] Crowley J.L., Fast Computation of Characteristic Scale Using a Half-Octave
Pyramid, Proc. International Workshop on Cognitive Vision (CogVis), Zurich,
Szwajcaria, 2002.
[19] Jakubowski J., Ocena możliwości wykorzystania deskryptorów cech lokalnych
obrazu twarzy w zadaniu automatycznej identyfikacji osób, Przegląd
Elektrotechniczny, R. 87, Nr 11a/2012, ss. 217-221.
[20] Anderson T. W., R. A. Fisher and multivariate analysis, Statistical Science, vol. (1),
1996, ss. 20-34
[21] Ciota Z., Metody przetwarzania sygnałów akustycznych w komputerowej analizie
mowy, Exit 2010
[22] Dobrowolski A., Majda E., Application of homomorphic methods of speech signal
processing in speakers recognition system, Electrical Review, R. 88 NR 6/2012
[23] Furui S., Recent advantages in speaker recognition, Pattern Recognition Letters 18,
1997, ss. 859-1872
[24] Keshet J., Bengio S. Automatic Speech and Speaker Recognition, Wiley, 2009
Andrzej P. DOBROWOLSKI, Jacek JAKUBOWSKI, Ewelina MAJDA, Jolanta PACAN, Michał WIŚNIOS
100
[25] Kruk M., Osowski S., Koktysz R., Recognition of Colon Cells Using Ensemble of
Classifiers, International Conference on Neural networks, Orlando, Florida, USA,
2007.
[26] Kopparapu S. K., Laxminarayana M., Choice of Mel Filter Bank in Computing
MFCC a resamples Speech, 10-th International Conference on Information Science,
Signal processing and their Applications, Malaysia 2010, ss. 121-124
[27] Majda E., Dobrowolski A., Modeling and optimization of the feature generator for
speaker recognition systems, Electrical Review, 12/2012
[28] Majda E., Dobrowolski A., Feature generator for speaker recognition using the
fusion of cepstral and melcepstral parameters, Joint Conference NTAV/SPA, 2012,
Łódź 2012
[29] Oppenheim A. V., R. Schafer W., From Frequency to Queferency: A history of the
cesptrum, IEEE Signal Processing Magazine, 2004 ss.95-106.
[30] Pawłowski Z., Foniatryczna diagnostyka wykonawstwa emisji głosu śpiewaczego i
mówionego, Impuls, 2005.
[31] Ruud M. Bolle, Jonathan H. Connell, Sharath Panakanti, Nalini K. Ratha, Andrew W.
Senior, Biometria, Wydawnictwa Naukowo-Techniczne WNT, Warszawa 2008.
[32] Dąbrowski T., Bednarek M., Wiśnios M., Analiza wiarygodności identyfikacji
multibiometrycznej typu „odciski palców”, Zimowa Szkoła Niezawodności, Szczyrk
2013.
[33] Dąbrowski T., Wiśnios M., Badania weryfikacyjne metody rozpoznawania twarzy,
VIII Krajowa Konferencja „Diagnostyka Techniczna Urządzeń i Systemów”
Diag`2013, Ustroń 2013.