prezentacija govornih tehnologija i demonstracija prvih...
TRANSCRIPT
Prezentacija govornih tehnologija i demonstracija prvih primena
Prof. dr Vlado Delić Fakultet tehničkih nauka i
AlfaNum, Novi Sad Nov. 2013.
1
Agenda
• Zašto je teško automatizovati pretvaranje: – teksta u govor (TTS)?
– govora u tekst (ASR)?
• Istraživački projekti – razvijeni resursi za ASR i TTS
• Novi proizvodi – pametni telefoni
– pametne kuće
– pomagala
mesti meti [/0] Vd-s-2--
metak metak ["0] NNms4---
metak metka ["0] NNms2---
metak metke ["0] NNmp4---
metak metkom ["0] NNms6---
metak metku ["0] NNms5---
metak metku ["0] NNms3---
metla metla [\0] NNfs1---
metla metlama [\00] NNfp3---
metla metlama [\00] NNfp6---
metla metle [\0] NNfp4---
metla metle [\0] NNfp5---
metla metle [\0] NNfs2---
metla metle [\0] NNfp1---
metla metli [\0] NNfs3---
metla metli [\0] NNfp2---
Prof. Delić – FTN, Novi Sad 2
Voice Assistant
Prof. Delić – FTN, Novi Sad 3
Cognition
Language
Technology
govor
tekst
značenje akcija
tekst
govor
ASR i TTS u dijalogu čovek-mašina
Automatic Speech
Recognition
Spoken Language
Understanding
Dialogue Management
Spoken Language
Generation
Text-to-Speech Synthesis
Automatsko prepoznavanje
govora
Razumevanje govornog
jezika
Upravljanje dijalogom
Sinteza govora no osnovu
teksta
Generisanje govornog
jezika
Prof. Delić – FTN, Novi Sad 4
Primene ASR i TTS
Mašina
Čovek
Aparati u domaćinstvu
Uređaji u kancelariji
Instrumenti u kolima
Mašine u industriji
Udaljena mašina
Internet/PSTN
Udaljeni uređaji
Pristup bazama podataka
Srpski
Engleski
Prof. Delić – FTN, Novi Sad 5
Prednosti govorne
komunikacije čovek-mašina
• Ne koriste se ruke i oči
• Pristup iz daljine
• Razvoj tehnologije
– uređaji sve manji
– tastature i ekrani ne mogu biti manji
– memorija i procesori sve pristupačniji
– komunikacioni linkovi sve brži
Tehnologije zavisne od jezika
- razvoj za svaki jezik posebno
Prof. Delić – FTN, Novi Sad 6
емитовање гласа
(вокални тракт)
смишљање поруке
језички код
Шта ће да каже текст
нервно-мишићна активност
Како ће да каже прозодија
звучна побуда (плућа и гласнице)
артику- лација
ГОВОРНИК
Начин изговора
Јачина и висина тона
СЛУШАЛАЦ
схватање поруке
низ речи = реченица семантика
низ гласова = реч синтакса
спектрална анализа
помераји базиларне мембране
механичко-нервна трансдукција
језички код
опажање гласова
izvor
poruka
lingvistički
kanal
artikulacioni
kanal
P(M)
P(W|M)
M
W
akustički
kanal
P(S|W)
S
prenosni
kanal
A
P(A|S)
P(X|A)
ASRP(W’|X) SLU
X
W’
HSR
M’
W’
M’
Uzrok varijabilnosti Posledica
razne aplikacije različite govorne poruke
različiti jezici različite reči i izgovor
način izražavanja alternativni izrazi iste poruke
razni govornici svako drugačije govori
stanje govornika emocije, umor, bolest, starost
reverberacija prostorije direktan zvuk i refleksije
ambijentalna buka ostali zvuci u zvučnom polju
vrsta pretvarača mikrofon, spikerfon, telefon
kvalitet pretvarača usmerenost i položaj
komunikacioni kanal telefonski, radio, VoIP
estimirana obeležja vrsta obeležja, način estimacije
Poznavanje izvora varijabilnosti
Izvori znanja za
rešavanje problema
Prof. Delić – FTN, Novi Sad 8
Zašto su ASR i TTS teški?
Problematika ASR Problematika TTS
Prepoznati govor
• govor tekst
Razne varijabilnosti:
• razni jezici i aplikacije
• različit glas govornika
• ambijent i buka
• položaj mikrofona
• komunikacioni kanal
Sintetizovati govor
• tekst govor
Tekst bez prozodije:
• koliko traje izgovor slova
• je li u naglašenom slogu
• koja od 4 vrste akcenata
• kako izgovoriti slovo, slog, reč i rečenicu
Prof. Delić – FTN, Novi Sad 9
Kako funkcionišu ASR i TTS?
ASR:
• Trening (off-line)
• Primena (on-line)
• Modeli: AM, PM, LM
TTS:
• Akcenatsko- -morfološki rečnik
• Govorna baza
• Analiza teksta i sinteza govora
Analiza
teksta
Sinteza
govora
Uska
fonetska
transkripcija
Fonemi
Prozodija
T
e
k
s
t
u
g
o
v
o
r
Text
Govor
Izdvajanje
obeležja
Akustičko
poređenje
Lingvističko
poređenje
AM PM LM
Leksički
model
Jezički
model
Akustički
model
Prepoznati
niz reči
Govorna baza
(audio snimci
i transkripcija)
Audio signal
(govor i šum)
TRENIRANJE
MODELA
(off-line)
PREPOZNAVANJE
GOVORA
(on-line)
A=S+N XP(X|W) P(W)
W’
Korpus
rečenica
Izgovor
reči
Prof. Delić – FTN, Novi Sad 10
TEKST
JEZIČKA OBRADA TEKSTA
SINTAKSNO-PROZODIJSKA
ANALIZA
PREDOBRADATEKSTA
MORFOLOŠKAANOTACIJA
MORFOLOŠKAANALIZA
FONETIZACIJAGENERISANJEPROZODIJSKIH
OBELEŽJA
SINTEZA SIGNALA
SINTEZAPOVEZIVANJEM
SEGMENATA
GOVOR
GOVOR
TEKSTUALNI RESURS
GOVORNI RESURS
EKSPERTSKI SISTEM
AUTOMATSKI OBUČENI SISTEM
IZDVAJANJEOBELEŽJAGOVOR
NORMALIZACIJAOBELEŽJA
DEKODOVANJE
OBRADA GOVORNOG SIGNALA
TEKST
AKUSTIČKI MODEL
MATEMATIČKI MODEL
JEZIČKI MODEL
N-GRAM REČI
N-GRAM LEMA
N-GRAM KLASA
SINTEZA GOVORA
MODEL IZGOVORA
MORFOLOŠKI REČNIK
· 100.000 lema· 3.900.000
izvedenih oblika· poziciona struktura
morfološkog deskriptora
· sadrži podatke o akcentuaciji
PREPOZNAVANJE GOVORA
· fonetizacija· položaj
naglašenih slogova
· skriveni Markovljevi modeli
· Gausove mešavine
MODELOVANJE GOVORA
mesti meti [/0] Vd-s-2--
metak metak ["0] NNms4---
metak metka ["0] NNms2---
metak metke ["0] NNmp4---
metak metkom ["0] NNms6---
metak metku ["0] NNms5---
metak metku ["0] NNms3---
metla metla [\0] NNfs1---
metla metlama [\00] NNfp3---
metla metlama [\00] NNfp6---
metla metle [\0] NNfp4---
metla metle [\0] NNfp5---
metla metle [\0] NNfs2---
metla metle [\0] NNfp1---
metla metli [\0] NNfs3---
metla metli [\0] NNfp2---
SINTEZASKRIVENIM
MARKOVLJEVIMMODELIMA
ALFANUM PREPROCESOR
· obrada skraćenica· obrada neortografskih
elemenata (2 devojke, Henri VIII)
· regularni izrazi· SSML 1.0 podrška
za specifikaciju interpretacije
ALFANUM SISTEM ZA MORFOLOŠKU ANOTACIJU
· tačnost morfološke anotacije: 93.4%
· tačnost akcentuacije: 98.7% (na „lakšim“ tekstovima i veća)
DETEKCIJA PROZODIJSKIH ELEMENATA IZ TEKSTA
· položaji i tipovi granica između intonacionih celina
· naročito naglašen ili nenaglašen izgovor pojedinih reči
AdvSub
Pred
AuxV
AuxC AuxV
Pred
koja bi
zadesila
odlazila
bi dalje
Atr
Sub
takva
sudbina
plemena
PREDIKCIJA f0 I TRAJANJA GLASOVA
· regresiona stabla· f0: RMSE = 18Hz· trajanja: RMSE = 16ms· MOS: 3.9 (1 – 5)
GOVORNA BAZA NAMENJENA SINTEZI GOVORA
SRPSKI· 4 sata govora (1 govornica)· fonetski i morfološki
anotirana· Sadrži podatke o
akcentuaciji i drugim elementima prozodije
GOVORNA BAZA NAMENJENA PREPOZNAVANJU GOVORA
SRPSKI· 20 sati govora
(1000 govornika)· fonetski anotirana· sadrži podatke o nekim
elementima akcentuacije· ručna provera ispravnosti
akcentuacije
TEKSTUALNI KORPUS NAMENJEN PREPOZNAVANJU GOVORA
· oko 100 miliona reči· različiti funkcionalni stilovi· automatska morfološka
anotacija
MORFOLOŠKI ANOTIRANI TEKSTUALNI KORPUS
· 11.000 rečenica· 200.000 reči· poziciona struktura
morfoloških deskriptora
· sadrži podatke o akcentuaciji
· ručna provera ispravnosti anotacije
TRANSFORMACIONA PRAVILA
· podizanje tačnosti morfološke anotacije
· (Brill, 1995)
Razvoj dijaloških sistema za srpski i
druge južno-slovenske jezike
(MPNTR, 2011-14)
World-Class Speech Technology
for South Slavic Languages
(FID, 2013-15)
Govorna komunikacija čovek-mašina
(MPNTR, 2008-10)
Razvoj govornih tehnologija
za srpski jezik (MPNTR, 2005-08)
Prof. Delić – FTN, Novi Sad 11
1 2 3 4 5
Квалитет
Пријатност
Разумљивост
Природност
Лакоћа
Google AlfaNumSnezana
Квалитет синтезе говора
Prof. Delić – FTN, Novi Sad 12
Демонстрација ASR и TTS • Препознаје
говорне команде - ASR
• Одговара синтетизованим говором – TTS
021/475-0204
www.alfanum.co.rs www.alfanum.ftn.uns.ac.rs
Prof. Delić – FTN, Novi Sad 13
Достигнућа у развоју за српски
http://www.alfanum.ftn.uns.ac.rs/ http://www.alfanum.co.rs/
Prof. Delić – FTN, Novi Sad 14
ASR (GovorTekst) TTS (TekstGovor)
Neme osobe
(Na)gluve osobe
Osobe oštećenog vida
Fizički hendikep i stare osobe
Asistivne tehnologije
na bazi govornih tehnlogija
- gluvonemi, laringektomirani, autistični
- slepi, slabovidi, disleksija, starije osobe
- paraplegičari, distrofičari, cerebrala, multipleskleroza
- gluvonemi, gluve i nagluve osobe
- svi koji hoće da komanduju, diktiraju - svi koji žele da slušaju , da im neko čita
Prof. Delić – FTN, Novi Sad 15
Kako slepi čitaju?
Tradicionalno:
• Knjige na Brajevom
pismu
+ nezavisnost
– čuvanje i distribucija
• Audio knjige i časopisi
+ prirodan ljudski glas
– distribucija
TTS:
• On-line pristup:
+ Knjige = ravnopravnost u
obrazovanju
+ Novosti = samostalnost u
informisanju
+ Pisma = intimnost u
dopisivanju
Prof. Delić – FTN, Novi Sad 16
Audio biblioteka za osobe sa invaliditetom
• Prvo razvijen za slepe i slabovide
• Sada se adaptira za druge OSI
• Povezivanje na druge biblioteke
• Razni interfejsi i audio formati
• Razni uređaji (PC, tablet, telefon)
Pro
f. D
elić
– F
TN
, N
ovi S
ad
Neki novi projekti
• Robot pomaže pri terapiji (MARKO) – motiviše i doprinosi istrajnosti
– govorne vežbe
• Učenje stranih jezika – Kako pročitati rečenicu naglas? (TTS)
– Da li dobro izgovaramo reči? (ASR)
• Telefon kao pomagalo – nemi: napišu šta žele reći
– autistični: biraju niz slika
Prof. Delić – FTN, Novi Sad
Anegdota
• Profesor Delić je jednom prilikom trebao da održi predavanje na skupu na kom su istovremeno bile i osobe koje ne vide i osobe koje ne čuju. Napisao je sve što je želeo da kaže, a ja sam, kao govorna mašina, održala predavanje. Slušale su me osobe koje ne vide, dok su osobe koje ne čuju pratile prikazani tekst, a profesor je mogao da ćuti i posmatra njihova lica, sakupljajući inspiraciju za dalje usavršavanje govornih tehnologija. Tako može jedna potpuno nema osoba istovremeno da komunicira i sa gluvim i sa slepim osobama - što je nezamislivo bez govornih tehnologija.
Prof. Delić – FTN, Novi Sad 19
Govorne komande u pametnoj kući
• “Alfa, otključaj vrata”
• “Alfa, uključi klimu”
• “Alfa, upali svetlo u hodniku”
• “Alfa, podigni roletne na terasi”
• “Alfa, upali muziku”,
– “Pojačaj malo”
• “Alfa, upali televizor”,
– “Kanal broj 201”, “Pojačaj”
Prof. Delić – FTN, Novi Sad
Položaj mikrofona?
• Mikrofon na jednom mestu – Nije nam uvek pri ruci
– Često je udaljen od govornika • Više reverberantnog od direktnog zvuka
• Mikrofon na glavi ili bubica – Bežična veza do računara
– Ograničen komfor
• Mikrofon na mobilnom telefonu – Uvek pri ruci
– Može da obavlja posao računara
Prof. Delić – FTN, Novi Sad 22
Dodatne mogućnosti govornih tehnologija
• Na mobilnim uređajima – kalendar/alarm (provera)
– Informacije vezane za lokaciju (npr. turizam)
– pokretanje aplikacija (kalkulator, muzika, itd.)
• Primene u automobilima – govorne komande
– navigacija (upravljanje)
– čitanje
• Audio biblioteke – čitanje knjiga, časopisa
• Prepoznavanje govornika – dete, roditelj, baba, deda
• Razlikovanje emocija – strategija dijaloga
• Roboti – društvo
– pomoć
– igra
Prof. Delić – FTN, Novi Sad 23
Kontakt centri + ASR&TTS&SR
• Unapeđenje rada pozivnih centara:
– Prepoznavanje cifara (PIN-ova), ali i iznosa, datuma, gradova...
– Identifikacija korisnika putem glasa
– Kreiranje promptova preko TTS-a, umesto snimanjem wav-ova
– Personalizovano obraćanje korisnicima (po imenu i sl.)
– Čitanje drugih sadržaja koji postoje u bazi u tekstualnom formatu (obaveštenja, novosti, rezultati pretraga...)
– ...
• U zavisnosti od usluge koju nudi CC, moguće je smanjiti potreban broj operatera i do 80%
24 Prof. Delić – FTN, Novi Sad
Primeri govornih automata
• Informacije o redu vožnje
• Poziv na glas (Voice Dial)
• 988 servisi
• TV Program
• Sportski rezultati
• Zakazivanje termina
• Vremenska prognoza
• Škole i fakulteti
25 Prof. Delić – FTN, Novi Sad
Prepoznavanje govornika
• Verifikacija govornika
– Kontrola pristupa govornim automatima, objektima i sl.
• Identifikacija govornika
– Traženje određenog govornika u velikoj količini audio materijala
• Korisnici
– Banke
– Media monitoring agencije
– Sigurnosne službe
26 Prof. Delić – FTN, Novi Sad
Dalji razvoj prepoznavanja govora
• LVCASR:
– Prepoznavanje rečnika i do 1M reči
– Upotreba jezičkih modela
– Optimizacija pretrage (FST)
– Unapređenje akustičkih modela (diskriminativna obuka, DNN + HMM)
– Adaptacija na govornika
27 Prof. Delić – FTN, Novi Sad
Dalji razvoj sinteze govora
• HMM-TTS:
– Govor se modeluje parametarski
– Potrebna je manja baza
– Veća otpornost na greške u bazi
– Veće mogućnosti izmene karakteristika govornika
– Manji memorijski i CPU zahtevi
• Problem - zujanje koje je još uvek prisutno
• Rešenje: modelovanje adekvatnije glotalne pobude
28 Prof. Delić – FTN, Novi Sad
Perspektive unapređenih tehnologija
Aids for the disabled(physically disabled; hearing, speech or visually impaired)
Embedded devices(PDAs, warehousing, daisy players)
Towards large vocabularies Accuracy and robustnessFlexibility and ease of use
Towards more speakers Flexibility and naturalnessSmaller footprint
LV ASR
HMMTTS
(visually impaired)
Aids for the disabled
Talking Web(speech enabled
Internet sites)
Basic IVR systems(telcos, banks,bus stations)
Simple speech commands(computers)
TECHNOLOGY
APPLICATION
TTS
ASR
Human-machine interaction(smart phones, homes, robots, cars...)
Education(audio libraries, assisted language learning)
Text dictation(lawyers, doctors, journalists, writers...)
Speech transcription(security or media monitoring agencies, other institutions requiring transcription of phone calls, meetings, voicemail...)
Conversion of text to speech(documents, e-mails, SMS, books, websites...)
201520142013 ......
Advanced IVR systems(call centre automation, extended dialling, intuitive dialogue)
29 Prof. Delić – FTN, Novi Sad
• • Преслушавање:
• Аудио-књига
• Текстова са Интернета
• Учење страних језика
• Помагала за особе:
• које не могу да говоре
• које не виде
• Слушање/диктирање:
• E-mail & SMS
• Двосмерна говорна комуникација:
• Интерактивни системи
• Уређаји у домаћинству...
• Превођење говора
• Говор у текст:
• Диктирање текста
• Транскрипција говора
• Претрага говора
• Помоћ глувим особама
• Дијалог:
• Интеракт. системи
• Роботи и играчке
• Паметни телефони
• Говорне команде:
• Персонални рачунари
• Паметни телефони
• Позивање гласом
• Тражење кључних речи
• Помагала за ОСИ
ASR (Мали
речници)
LVCASR (Велики
речници)
TTS (Слушање
текста)
TTS & LVCASR
(Дијалог)
Prof. Delić – FTN, Novi Sad 30
Pitanja
Govorne tehnologije • Koje sve tehnologije su
obuhvaćene u govornoj komunikaciji čovek-mašina? – Čemu služi animirani lik u TTS? – Kako slika može da pomogne ASR? – Koja je funkcija jezičkih
tehnologija? – Šta radi dijalog menadžer?
• Koje su prednosti i mane govornog interfejsa?
• Opisati izvore varijabilnosti koji otežavaju ASR.
• Objasniti zašto je teško pretvaranje teksta u govor?
Primene ASR i TTS
• Kojim osobama sa invaliditetom pomaže TTS, a kojim ASR?
• Kako se ASR i TTS mogu koristiti pri učenju jezika?
• Objasniti primene u pametnim kućama.
• Kako ASR i TTS povećavaju efikasnost korišćenja telefona?
• Prepoznavanje govornika.
• Primene u telefoniji.
• Primene LVCASR.
Prof. Delić – FTN, Novi Sad 31
HVALA NA PAŽNJI! Pametni telefoni – Voice Assistant
Pomagala za osobe sa invaliditetom
Pametne kuće
Prof. dr Vlado Delić – FTN , Novi Sad
21. TELFOR, Beograd, 27.11.2013.
32