a beszéd-technológia jövője – kihívások és stratégiák
DESCRIPTION
A beszéd-technológia jövője – kihívások és stratégiák. Nyelvi áttörés A nyelv- és beszédtechnológia mint húzóágazat. Mihajlik Péter BME-TMIT. Áttekintés Bevezetés Helyzetkép Mit ől, hogyan működik? Kihívások és válaszlehetőségek A közeljövő alkalmazásai Összegzés. Bevezetés - PowerPoint PPT PresentationTRANSCRIPT
![Page 1: A beszéd-technológia jövője – kihívások és stratégiák](https://reader036.vdocuments.mx/reader036/viewer/2022062305/56814fe3550346895dbdad79/html5/thumbnails/1.jpg)
A beszéd-technológia jövője – kihívások és stratégiák
Nyelvi áttörés
A nyelv- és beszédtechnológia mint
húzóágazat Mihajlik Péter
BME-TMIT
![Page 2: A beszéd-technológia jövője – kihívások és stratégiák](https://reader036.vdocuments.mx/reader036/viewer/2022062305/56814fe3550346895dbdad79/html5/thumbnails/2.jpg)
Áttekintés
• Bevezetés • Helyzetkép• Mitől, hogyan működik?• Kihívások és válaszlehetőségek • A közeljövő alkalmazásai• Összegzés
![Page 3: A beszéd-technológia jövője – kihívások és stratégiák](https://reader036.vdocuments.mx/reader036/viewer/2022062305/56814fe3550346895dbdad79/html5/thumbnails/3.jpg)
Bevezetés
A beszédtechnológia két fő ága:• Gépi beszédfelismerés (ASR: Automatic Speech Recognition)
• Beszéd (hangnyomás-időfüggvény) szöveg (írott szósorozat)
• Gépi beszédkeltés (TTS: Text To Speech)
• Az előző megfordítása
Mellékágak:Beszélő-felismerés, -azonosítás, érzelem-felismerés, beszédminősítés, beszédterápia, beszéd-zene-zaj szétválasztás, beszédtisztítás, multimodális beszéd- felismerés, stb.
![Page 4: A beszéd-technológia jövője – kihívások és stratégiák](https://reader036.vdocuments.mx/reader036/viewer/2022062305/56814fe3550346895dbdad79/html5/thumbnails/4.jpg)
Bevezetés
A beszédtechnológia két fő ága:• Gépi beszédfelismerés (ASR: Automatic Speech Recognition)
• Beszéd (hangnyomás-időfüggvény) szöveg (írott szósorozat)
• Gépi beszédkeltés (TTS: Text To Speech)
• Az előző megfordítása
Mellékágak:Beszélő-felismerés, -azonosítás, érzelem-felismerés, beszédminősítés, beszédterápia, beszéd-zene-zaj szétválasztás, beszédtisztítás, multimodális beszéd- felismerés, stb.
![Page 5: A beszéd-technológia jövője – kihívások és stratégiák](https://reader036.vdocuments.mx/reader036/viewer/2022062305/56814fe3550346895dbdad79/html5/thumbnails/5.jpg)
Bevezetés II.A beszéd-szöveg átalakítás kiemelt jelentőségű, mert
• Ami igazán fontos, élőszóban hangzik el• Gyorsabban és könnyebben beszélünk, mint írunk •„Kaputechnológia”, szűkkeresztmetszet. E nélkül nincs:
• beszédinformáció-kivonatolás, -visszakeresés, -strukturálás • beszédértés (szűk értelemben se)• beszédfordítás• hanggal-, hangból keresés
• Nagyszámú alkalmazás épít(ene) rá• A korszerű beszédkeltési technológiák is erre alapoznak
![Page 6: A beszéd-technológia jövője – kihívások és stratégiák](https://reader036.vdocuments.mx/reader036/viewer/2022062305/56814fe3550346895dbdad79/html5/thumbnails/6.jpg)
Helyzetkép: az áttörés megtörtént – a beszédtechnológia használható!
A áttörés
![Page 7: A beszéd-technológia jövője – kihívások és stratégiák](https://reader036.vdocuments.mx/reader036/viewer/2022062305/56814fe3550346895dbdad79/html5/thumbnails/7.jpg)
Helyzetkép: az áttörés megtörtént – a beszédtechnológia használható!
A gépi beszédfelismerés is!!!
![Page 8: A beszéd-technológia jövője – kihívások és stratégiák](https://reader036.vdocuments.mx/reader036/viewer/2022062305/56814fe3550346895dbdad79/html5/thumbnails/8.jpg)
Helyzetkép: az áttörés megtörtént – a beszédtechnológia használható!
A gépi beszédfelismerés is!!!
Noha a beszédfelismerési technológia messze nem tökéletes,
a használhatósága ma már nem kétséges!
![Page 9: A beszéd-technológia jövője – kihívások és stratégiák](https://reader036.vdocuments.mx/reader036/viewer/2022062305/56814fe3550346895dbdad79/html5/thumbnails/9.jpg)
Az áttörés megtörtént – a beszédtechnológia használható!
• Használható: kisebb költséggel, többet tud a gép, mint az ember?!• Igen!
• Ki tudja 200 óra hangzó híranyagban megtalálni a megadott 1000 kulcsszó ~50%-át 24 óra alatt?
• 2 db (4 magos) CPU képes rá! (RTF<1 /mag)• 2 ember, > 2 hét – csak lehallgatás (RTF>1 /fő)• 12 ember, > 2 hét – teljes lejegyzés (RTF>6 /fő)
Áramdíj < 2 eFt Munkadíj > 200 eFt / 1.2 MFt
![Page 10: A beszéd-technológia jövője – kihívások és stratégiák](https://reader036.vdocuments.mx/reader036/viewer/2022062305/56814fe3550346895dbdad79/html5/thumbnails/10.jpg)
Az áttörés megtörtént – a beszédtechnológia használható!
• Használható: többet tud a gép, mint az ember?!• Igen!
• Ki képes egy nagyváros összes lakosának (~250.000) fő nevét és lakcímét első hallásra 10 esetből min. 9-szer hibátlanul leírni?
• 1 db CPU képes rá (+ beszédtechnológia)! • ~0 sec válaszidő!!
Áramdíj, válaszidő: ~ 0 visszakérdezések, hibák
![Page 11: A beszéd-technológia jövője – kihívások és stratégiák](https://reader036.vdocuments.mx/reader036/viewer/2022062305/56814fe3550346895dbdad79/html5/thumbnails/11.jpg)
Az áttörés megtörtént – a beszédtechnológia használható!
• Használható: kisebb költséggel, többet tud a gép, mint az ember?!• Igen, igen!
• A beszédszintetizátor bármit kimond• Nem fárad el, nem reked be• Ha kérik, gyorsabban beszél, ha kérik, lassabban • Nem sértődik meg, ha a felmenőit emlegetik• …
![Page 12: A beszéd-technológia jövője – kihívások és stratégiák](https://reader036.vdocuments.mx/reader036/viewer/2022062305/56814fe3550346895dbdad79/html5/thumbnails/12.jpg)
Az áttörés megtörtént – a beszédtechnológia használható!
• Mitől?• Új kutatási eredmények? – Alapjait tekintve nem igazán, több éve kiforrott a technológia…• Meg van oldva a probléma? – Határozottan nincs
• Inkább:• A beszédtechnológia megtalálta az alkalmazásait!• A számítástechnika fejlődése egyre inkább lehetővé teszi a megfelelő (jórészt már ismert) algoritmusok alkalmazását
![Page 13: A beszéd-technológia jövője – kihívások és stratégiák](https://reader036.vdocuments.mx/reader036/viewer/2022062305/56814fe3550346895dbdad79/html5/thumbnails/13.jpg)
Mitől, hogyan működik?
• „Megérti a gép, amit mondok?”• Neeeemm!
(A gép nem „ért meg” semmit, a gépi szövegértésnek az emberi kognícióhoz, gondolkodáshoz egyelőre nem sok köze van…)
• „Leírja, amit mondok?”• Ez a cél, de általánosságban ez sem teljesül…
![Page 14: A beszéd-technológia jövője – kihívások és stratégiák](https://reader036.vdocuments.mx/reader036/viewer/2022062305/56814fe3550346895dbdad79/html5/thumbnails/14.jpg)
Mitől, hogyan működik? A gépi beszédfelismerés alapelve:I. Lényegkiemelés (jelfeldolgozás, normalizálások)
II. Mintaillesztés (tárolt modellekhez történő összehasonlítás)
• Összetett beszédmodell• Nyelvi, akusztikai információk
• Összehasonlítások!!!• Órási keresési tér (akár > 1050 szósorozat)
Mindig a legjobban illeszkedő modellekre-útvonalra döntünk!„eredmények a beszédtechnológiában”
![Page 15: A beszéd-technológia jövője – kihívások és stratégiák](https://reader036.vdocuments.mx/reader036/viewer/2022062305/56814fe3550346895dbdad79/html5/thumbnails/15.jpg)
Mitől, hogyan működik? Honnan vesszük a beszédfelismerési modelleket?• Szinte minden statisztikai alapú!
• Lejegyzett beszédadatra van szükség a modelltanításhoz• Mivel (nagyon) sok a modellparaméter, (nagyon) sok adatra
van szükség a megfelelő becsléshez• Nincs általános modell, minden feladatra külön kell gyűjteni• Mindig számolni kell jelentős beszédfelismerési hibával• A beszédfelismerési hiba főként attól függ, hogy
akusztikailag, nyelvileg mennyire különböző lehetőségek közül választhatunk a mintaillesztés során
• Nem egyszerű feladat eldönteni, hogy az optimális felismerési eredmény (szósorozat) helyes is egyben
![Page 16: A beszéd-technológia jövője – kihívások és stratégiák](https://reader036.vdocuments.mx/reader036/viewer/2022062305/56814fe3550346895dbdad79/html5/thumbnails/16.jpg)
Kihívások és válaszlehetőségek Az ideális beszédfelismerő rendszer…• … zajban sem rosszabb, az embernél• … távoli mikrofonnal működik• … témafüggetlen• … beszélőfüggetlen (a beszédhibákat is kiküszöböli)• … stílus-független (spontán beszédre is működik)• … minden nyelvre könnyen adaptálható
• (…kis fogyasztású, olcsó eszközön fut)• (…kézi átirat nélkül tanítható)
…talán sosem fog működni… de azért….
![Page 17: A beszéd-technológia jövője – kihívások és stratégiák](https://reader036.vdocuments.mx/reader036/viewer/2022062305/56814fe3550346895dbdad79/html5/thumbnails/17.jpg)
Kihívások és válaszlehetőségek Zajtűrő beszédfelismerés• A zaj elmossa az akusztikai különb- ségeket• Nem mindegy milyen (fehérzaj vs. háttérzene, -beszélgetés)• Válasz: nemlineáris, idővariáns, nem- stacionárius megközelí- tések, fizikusok, agy- és halláskutatókkal közös kutatások, stb.
Wall Street Journal – Olvasott hírek
Humán vs Cambridge HTK LVCSR beszédfelismerő
Szó
felis
mer
ési h
iba
%
Jel-zaj viszony dBZajos Tiszta
![Page 18: A beszéd-technológia jövője – kihívások és stratégiák](https://reader036.vdocuments.mx/reader036/viewer/2022062305/56814fe3550346895dbdad79/html5/thumbnails/18.jpg)
Kihívások és válaszlehetőségek Távoli mikrofon (distant speech recognition)• Probléma: a jelenlegi módszerek a közeli mikrofonokra, és/vagy csendes körülményekre használhatóak• Távoli mikrofon: rossz jel-zaj viszony
• Válasz: a zajtűrő módszereken felül, mikrofon tömbök, adaptív karakterisztika szabályozás, önirányító mikrofonok
![Page 19: A beszéd-technológia jövője – kihívások és stratégiák](https://reader036.vdocuments.mx/reader036/viewer/2022062305/56814fe3550346895dbdad79/html5/thumbnails/19.jpg)
Kihívások és válaszlehetőségek Témafüggetlenség• Probléma: a jelenlegi módszerek adott témakörökre igényelnek nagy mennyiségű tanítóanyagot, eltérő témára lényegesen nő a felismerési hiba
Beszélőfüggetlenség• Probléma: a jelenlegi módszerek a standard nyelvet kezelik, tájszólásra, beszédhibára kevésbé felkészültek
Válaszok• Minden eddiginél nagyobb mennyiségű tanítóadat
használata• Akusztikus/nyelvi modell adaptáció, felügyelet nélküli vagy
félig felügyelt módszerek kutatása
![Page 20: A beszéd-technológia jövője – kihívások és stratégiák](https://reader036.vdocuments.mx/reader036/viewer/2022062305/56814fe3550346895dbdad79/html5/thumbnails/20.jpg)
Kihívások és válaszlehetőségek Beszédstílus-függetlenség
• Probléma: a jelenlegi módszerek a spontán (lazán artikulált, bennfentes, stb.) nyelvet kevéssé kezelik, jóval nagyobb a felismerési hiba• Nagy a jelentősége, hiszen a hétköznapi beszéd alapvetően spontán
Nyelvi adaptálhatóság – morfológiailag gazdag nyelvek (!)• Arab, észt, finn, magyar, török: a szóalaki változatosság jóval nagyobb, mint az angol, spanyol, német, stb. nyelvekre• Probléma: ritka szóalakok nagy száma, (nagyon) nagy szótár, rosszul becsülhető nyelvi modell paraméterek, szótáron kívüli szavak nagy száma alacsonyabb szófelismerési pontosság
![Page 21: A beszéd-technológia jövője – kihívások és stratégiák](https://reader036.vdocuments.mx/reader036/viewer/2022062305/56814fe3550346895dbdad79/html5/thumbnails/21.jpg)
Szóalaki változatosság – beszédstílus, nyelvek –
kutatási eredmények
Magyar (tervezett)Magyar (tervezett)
Magyar (fMagyar (félig tervezettélig tervezett))
Magyar (Magyar (spontánspontán))
![Page 22: A beszéd-technológia jövője – kihívások és stratégiák](https://reader036.vdocuments.mx/reader036/viewer/2022062305/56814fe3550346895dbdad79/html5/thumbnails/22.jpg)
Szóalaki változatosság – beszédstílus, nyelvek –
kutatási eredmények •Angol szavak ~ magyar morf(émák)
• Illusztráció: look at it ~ néz + d
• Építsük a nyelvi és kiejtési modelleket szó helyett morféma (szótő, rag, stb.) alapon
• Szó morféma leképezés?• Nyelvi szabály alapon?• Statisztikai felügyelet nélküli módszerrel?• Kombináció?• Szóhatár visszaállítás?
![Page 23: A beszéd-technológia jövője – kihívások és stratégiák](https://reader036.vdocuments.mx/reader036/viewer/2022062305/56814fe3550346895dbdad79/html5/thumbnails/23.jpg)
Szóalaki változatosság – beszédstílus, nyelvek
Morféma alapú rendszerek
Szó
felis
mer
ési p
onto
sság
%H
ibac
sökk
enés
%
Spontán Sajtótájékoztató Hírműsor
Tisztán statisztikai (MB) morf-alapú rendszerek javulása
Akusztikus adaptáció hatása Sp. St. Hír
Magyar nyelvű beszédfelismerési eredmények
Szótárméret: 20K-285K szó 2k – 80K morf
![Page 24: A beszéd-technológia jövője – kihívások és stratégiák](https://reader036.vdocuments.mx/reader036/viewer/2022062305/56814fe3550346895dbdad79/html5/thumbnails/24.jpg)
Szóalaki változatosság – beszédstílus, nyelvek –
kutatási eredmények• Morféma-alapú megközelítések általi felismerési hibacsökkenés nemzetközi összehasonlításban
Javu
lás
stat
iszt
ikai
mor
f m
odel
lezé
s ál
tal [
%]
Különböző szóalakok száma 160 ezer szavas korpuszban [x1000]
R=0,937
![Page 25: A beszéd-technológia jövője – kihívások és stratégiák](https://reader036.vdocuments.mx/reader036/viewer/2022062305/56814fe3550346895dbdad79/html5/thumbnails/25.jpg)
Kihívások és válaszlehetőségek Beszédstílus-függetlenségNyelvi adaptálhatóság – morfológiailag gazdag nyelvek• A nyelvfüggetlen statisztikai módszer hatékonysága nem elősorban nyelvfüggő és stílusfüggő, hanem a szóalaki változatosságtól függ• Minél nagyobb a szóalak-változatossági probléma, annál jobban segít• Mégsem ettől lesz kicsi a felismerési hibaVálasz?• minden eddiginél több tanítóadat?• minden eddiginél nagyobb memória?
![Page 26: A beszéd-technológia jövője – kihívások és stratégiák](https://reader036.vdocuments.mx/reader036/viewer/2022062305/56814fe3550346895dbdad79/html5/thumbnails/26.jpg)
Kihívások és válaszlehetőségek Tanítóadatbázis-méret növelés• Kulcsfontosságú mind a kutatás, mind a fejlesztés szempontjából• Ahol az adat, ott fejlődik(-het) a technológia…• 3 éves gyerek 5M-20M szót hallott!Probléma: drága az előállítás (beszélt nyelvi korpuszokról
van szó!), a kutatás-fejlesztési eszköztár is az…• Google: akusztikus és nyelvi modell tanítás 35 CPU év! (áramköltség
>1.5 MFt) – és ez csak a „voice search” alkalmazás…
Válasz: könnyítsük, gyorsítsuk a kézi munkát, félig felügyelt módszerek kutatása, felügyelet nélküli módszerek kutatása
![Page 27: A beszéd-technológia jövője – kihívások és stratégiák](https://reader036.vdocuments.mx/reader036/viewer/2022062305/56814fe3550346895dbdad79/html5/thumbnails/27.jpg)
A közeljövő alkalmazásai
• Jó – közepes akusztikai viszonyokra készülnek• Felismerési hiba tűrőek• Az embert nem „lecserélni”, segíteni akarják
Ezeknek megfelelő gyakorlati feladatok:• audio indexálás, keresés hang (video)tárakban, • információ kivonatolás hanganyagból, • kategorizálás, • infobányászat,• audio minőségbiztosítás, • ügyfélszolgálat részbeni automatizálása, …
![Page 28: A beszéd-technológia jövője – kihívások és stratégiák](https://reader036.vdocuments.mx/reader036/viewer/2022062305/56814fe3550346895dbdad79/html5/thumbnails/28.jpg)
A közeljövő alkalmazásai• A folyamatos nagyszótáras beszédfelismerési technológia potenciális felhasználói
• általános beszédinformációs tárak: rádió, TV, mozi • vállalati szféra: mindenféle szintű megbeszélések hanganyaga, ügyfélszolgálatok, sajtótájékoztatók• állami szféra: felügyelő szervek, biztonsági szervek• oktatás-kutatás: konferencia-, tanrendi előadások• internetezők…
• Nem az a kérdés, hogy a beszédtechnológia alkalmazásérett-e, hanem, hogy ki kerül versenyhátrányba, mert későn ébredt….
![Page 29: A beszéd-technológia jövője – kihívások és stratégiák](https://reader036.vdocuments.mx/reader036/viewer/2022062305/56814fe3550346895dbdad79/html5/thumbnails/29.jpg)
Összefoglalás
• Az áttörés megtörtént – a beszédtechnológia használható! • Az általános probléma még nincs megoldva • A kutatás-fejlesztés számára létfontosságú az eddigieknél sokkal komolyabb adatbázis-infrastruktúra kialakítása • Vannak olyan kutatási területek, melyek illeszkednek a hazai adottságokhoz és jól exportálhatóak
![Page 30: A beszéd-technológia jövője – kihívások és stratégiák](https://reader036.vdocuments.mx/reader036/viewer/2022062305/56814fe3550346895dbdad79/html5/thumbnails/30.jpg)
Köszönöm a figyelmet!
„Az áttörés megtörtént – a beszédtechnológia használható!”