recunoasterea vorbitorului

22
1 RECUNOASTEREA VORBITORULUI

Upload: eugen-lupu

Post on 20-Feb-2016

46 views

Category:

Documents


1 download

DESCRIPTION

Speaker recognition background -introduction

TRANSCRIPT

Page 1: Recunoasterea Vorbitorului

1

RECUNOASTEREA

VORBITORULUI

Page 2: Recunoasterea Vorbitorului

2

Încadrarea recunoasterii vorbitorului între metodele biometrice

Mijloacele de a proteja informatia sau accesul :

obiecte (chei),

informatii (cod-PIN)

particularitati personale (amprente, voce etc.).

“Verificatori biometrici”

Tip verificare Falsã rejecţie Falsã acceptare

voce (înaltã calitate) 1% 0.1%

voce (calitate telefonicã) 3.3% 0.4%

scanare retinã 2.8% 0%

semnãturã 0.2% 0.6%

vene < 1% < 1%

forma mâinii 0.1% 0.1%

Caracteristicile vorbitorului

Vorbirea conţine :

informaţii lingvistice, care reprezintă mesajul sec, independent de cine îl transmite

informaiţii legate de vorbitor, care dau indicii despre identitatea celui care vorbeşte

informaţii afective, legate de starea emoţională a vorbitorului (emoţie, stress, sănătate

etc.)

Page 3: Recunoasterea Vorbitorului

3

- Vorbirea este rezultat al unei secvente complexe de transformãri produse la câteva nivele diferite: semantic, lingvistic, articulator si acustic. Variatiile în vorbire legate de vorbitor sunt cauzate de : Variatii intervorbitor

diferente anatomice - se datoresc formei si mãrimii tractului vocal

diferente în deprinderile verbale (habit verbal) - modul în care vorbitorii au învătat sã foloseascã mecanismul vorbirii

Variatiile intravorbitor - datorate diferentelor între rostirile ale aceluias vorbitor

viteza de vorbire

starea emotionalã

stress

sãnãtate

Page 4: Recunoasterea Vorbitorului

4

Analiza variantei fonemice

cercetările lui Matsumoto indică faptul că informaţia fonemică este

semnificativ mai importantă decât cea datorată vorbitorului sau cea datorată

corelaţiei dintre ele

caracteristicile vorbitorului sunt transmise printr-un segment de vorbire prin informtia dependenta si cea independenta de foneme

Considerând factorii datoraţi vorbitorului şi cei fonemici ca un vector

caracteristic, xpsi, extras din segmentul “i” de vorbire al fonemei "p" rostite de vorbitorul "s", poate fi exprimat astfel :

x + a + + + epsi p s ps psi

unde :

- este vectorul medie pe toţi vectorii observaţi

s - este factorul principal al vorbitorului constând în informaţia personalã independentã de foneme

ap - este factorul principal fonemic

ps - este factorul de interacţiune între foneme şi vorbitor care conţine informaţia personalã

dependentã de fonemã epsi- termenul rezidual care implicã variaţiile datorate emoţiei, stãrii de sãnãtate etc.

- semnificaţia statisticã a fiecãrui factor a fost testatã pe baza statisticã 2

Page 5: Recunoasterea Vorbitorului

5

f

2

0 01

2/ .

P S PxS

Factor

0

100

200

300

400

500

600

P S PxS

Factor

Analiza varianţei factorilor S(vorbitor), P(fonemic) şi SxP(interacţiunea lor)

Din diagramã rezulta :

- factorul fonemic este foarte important (dominant) ceea ce sugereazã cã acesta poate corupe informaţia specificã vorbitorului mai ales la recunoaşterea

independentã de text a vorbitorului

- factorul fonemic dependent de vorbitor ps deşi nu este aşa de mare ca factorul

principal al vorbitorului are o valoare semnificativã fiind de 60 de ori mai mare decât nivelul de semnificanţã de 1%.

Page 6: Recunoasterea Vorbitorului

6

Caracteristici individuale Informatiile individuale specifice vorbitorului sunt reprezentate de :

calitatea vocii

înăltime

intensitate

viteza

intonatia

accent

vocabular Proprietãti ale parametrilor folositi la recunoasterea vorbitorului

Ideal ar fi ca parametri vocali sã îndeplineascã urmãtoarele conditii :

sã reprezinte eficient informatia dependentã de vorbitor

sã fie usor de mãsurat

sã fie stabili în timp

sã aparã natural si frecvent în vorbire

sã se modifice putin în medii diferite

sã nu se preteze la imitare

torintravorbimedievariatia

torintervorbimedievariatiaF

Page 7: Recunoasterea Vorbitorului

7

Page 8: Recunoasterea Vorbitorului

8

Obiectivele clasificãrii si recunoasterii vorbitorilor

identificarea sexului vorbitorului

identificarea vârstei

identificãrii stãrii de sãnãtate

identificarea dispozitiei vorbitorului (stresat, vesel, calm, supãrat)

identificarea accentului (provenienta socialã a vorbitorului)

identificarea limbii vorbite

identificarea unei anumite persoane e uzual numită ca recunoasterea

vorbitorului

identificarea vorbitorului constã în gãsirea la ce clasã sau vorbitor apartine cel mai probabil rostirea curentã/de test

verificarea vorbitorului are ca scop validarea sau invalidarea ipotezei cã rostirea apartine vorbitorului / clasei care o revendicã

Page 9: Recunoasterea Vorbitorului

9

Taxonomia sistemelor de recunoasterea vorbitorului

verificarea vorbitorului

identificarea vorbitorului

sistemele pot fi împãrtite dupã gradul de dependenta de text :

dependente de text - parole individuale - parole comune (rigide)

independente de text - cu vocabular fix (se folosesc aceleasi cuvinte într-o ordine aleatoare) - dependente de un eveniment (cautã un anumit eveniment lingvistic)

- vocabular fãrã restrictii (independenţã de text fãrã restrictii)

Page 10: Recunoasterea Vorbitorului

10

Structura sistemelor de recunoaşterea vorbitorului

EXTRAGEREA PARAMETRILOR

CARACTERISTICI

MODELE DE REFERINTÃ

PENTRU VORBITORI

COMPARARE (DISTANTA)

VOCE

REZULTATELE RECUNOASTERII

ANTRENARE

RECUNOASTERE

Page 11: Recunoasterea Vorbitorului

11

Evaluarea sistemelor de recunoastere a vorbitorului

In cazul verificãrii vorbitorului sunt douã posibilitãţi legate de

rostirea de intrare: - s - condiţia ca rostirea sã aparţinã clientului

- n - condiţia ca rostirea sã nu aparţinã clientului

şi avem douã condiţii de decizie :

- S - condiţia ca rostirea sã fie acceptatã ca fiind a clientului

- N - condiţia ca rostirea sã fie respinsã.

In aceste condiţii se combinã şi formeazã cele patru probabilitãţi condiţionate în

cazul verificãrii vorbitorului: Condiţiile rostirii de intrare

Condiţia de decizie s(client) n(impostor)

S (acceptare) P(S|s) P(S|n)

N (respingere) P(N|s) P(N|n)

unde avem: P(S|s)+P(N|s)=1 şi P(S|n)+P(N|n)=1, iar cele patru probabilitãţi

reprezintã : P(S|s) - probabilitatea de acceptare corectã P(S|n) - probabilitatea de acceptare falsã (FA) P(N|s) - probabilitatea de respingere falsã (FR) P(N|n) - probabilitatea de respingere corectã.

Page 12: Recunoasterea Vorbitorului

12

Caracteristica receptoare de operare (ROC)

Relaţia între ratele de eroare şi criteriul de decizie

Page 13: Recunoasterea Vorbitorului

13

Page 14: Recunoasterea Vorbitorului

14

Sisteme de recunoaştere a vorbitorului dependente de text

Schema bloc a principalelor operaţii pentru recunoaşterea vorbitorului folosind seriile în timp a coeficientilor cepstrali [Fur01]

Page 15: Recunoasterea Vorbitorului

15

Sisteme de recunoastere a vorbitorului dependente de text

Schema bloc indicind principalele prelucrări pentru recunoaşterea vorbitorului

folosind caracteristicile statistice ale parametrilor spectrali extraşi [Fur01]

Page 16: Recunoasterea Vorbitorului

16

Sisteme de recunostere a vorbitorului independent de text

metode folosind caracteristica mediatã pe termen lung

metode incorporând decizia fonemicã explicitã

metode folosind decizia fonemicã implicitã

Sistem de recunoaştere independent de text bazat pe caracteristica mediată

pe termen lung a semnalului vocal

Page 17: Recunoasterea Vorbitorului

17

Sistem de recunoaştere independent de text încorporând

decizia fonemică explicită

Page 18: Recunoasterea Vorbitorului

18

Sistem de recunoaştere independent de text încorporând

decizia fonemică implicită

Page 19: Recunoasterea Vorbitorului

19

Metode utilizate la recunoasterea vorbitorului

Schemă de principiu a sistemelor de recunoasterea vorbitorului

sistemele de început bazate pe spectrograme

sisteme bazate pe metodele programãrii dinamice (DTW)

sisteme ce folosesc cuantizarea vectorialã (CV)

sisteme utilizând retelele neuronale

sisteme bazate pe modele Markov ascunse (MMA)

sisteme bazate pe mixture gaussiene (GMM)

sisteme folosind metode algebrice/statistice

sisteme bazate pe metoda TESPAR-FANN

EXTRAGEREA

PARAMETRILOR

CARACTERISTICI

MODELE DE

REFERINÞÃ

PENTRU VORBITORI

COMPARARE

(DISTANÞA)

VOCE

REZULTATELE

RECUNOASTERII

ANTRENARE

RECUNOAªTERE DECIZIE

Page 20: Recunoasterea Vorbitorului

20

Aplicatii ale recunoasterii vorbitorului

1- aplicatii în telecomunicatii - tranzactii bancare si plãti de la distantã - acces la baze de date - acces la retele de calculatoare - acces PBX (private branch exchanges).

2- aplicatii de verificare a prezentei fizice a persoanei

- factorii din mediu pot fi mai usor controlati - verificarea vorbitorului poate fi mai restrictivã

- vorbitorul poate purta caracteristica vocii cu el - verificarea vorbitorului poate fi asociatã mai usor cu alte tehnici de verificare a identitãtii

3- aplicatii judiciare

- metoda ascultãtorului (expert) - metoda spectrograficã - metoda automata

Page 21: Recunoasterea Vorbitorului

21

BAZE DE DATE VOCALE PENTRU RECUNOASTEREA VORBITORILOR

1. NYNEX (land-line database) Ex. Rostiri: 355-087-3567 (3x) 333-444-5678 (3X)

446-586-7632 (3X) Carl lives in a lovely room/. (1X)

2. NYNEX cellular

nume familie vorbitor X5

cifre izolate

comenzi (dial,clear,..

parola vocala (3X 10 cifre) 3. King92 -ITT - 51 vorbitori masculini (telefon/microfon)

4. YOHO – ITT – autentificare vorbitor dependent de text (186vorbitori 156M+30F)

5. Switchboard –TI -2340 conversatii telefonice ~6min.-26CD 6. SPIDE >> Switchboard - 3 aparate diferite -2 CD

Page 22: Recunoasterea Vorbitorului

22

Tema. Sisteme de RV bazate pe mixture gaussiene (GMM)