pyž, gražina „lietuviškų fonemų dinaminių modelių analizė ir sintezė“
DESCRIPTION
Pranešimas XVI kompiuterininkų konferencijos sekcijoje „Lietuvių kalba kompiuterinėse technologijose“, „Kompiuterininkų dienos – 2013“, Šiauliai 2013-09-21TRANSCRIPT
Lietuviškų fonemų dinaminių modelių analizė ir sintezė
Kompiuterininkų dienos 2013, Šiauliai
Gražina Pyž1
Virginija Šimonytė2
Vytautas Slivinskas2
1 VU Matematikos ir informatikos institutas
2 Lietuvos edukologijos universitetas
Tyrimų sritis
Kalbos sintezės metodai:
• Konkatenacinė sintezė • Formantinė sintezė
Konkatenacinė sintezė remiasi į duomenų bazę įrašytais natūralios kalbos segmentais, kurie sintezės metu yra jungiami į žodžius.
Formantinėje sintezėje šnekos išėjimas yra sukuriamas naudojant adityvią sintezę ir akustinį modelį.
2
Aktualios problemos
Garsai, sintezuoti formantinės sintezės metodu, skamba
nenatūraliai (panašiai kaip roboto šneka). Siekiant
sumažinti sintetinį skambėjimą, būtina kurti naujus kalbos
garsų matematinius modelius, kurie gali būti naudojami
kaip sintezatoriaus bazė.
3
4
Darbo tyrimo objektas
Darbo tyrimo objektas yra dinaminiai lietuviškos
šnekos balsių ir pusbalsių fonemų modeliai.
Tyrimo metodika
• Skaitmeninis signalų apdorojimas,
• sistemų teorija,
• optimizavimo metodai,
• matricų teorija,
• matematinė statistika,
• programavimas Matlab aplinkoje,
• programavimas C # kalba.
5
Praktinė darbo reikšmė
Pasiūlyti balsių ir pusbalsių fonemų dinaminiai modeliai gali
būti panaudoti kuriant formantinį kalbos sintezatorių.
Fonemų modeliai taip pat gali būti pritaikyti kitoms
problemoms spręsti, pavyzdžiui, gydant kalbos sutrikimus,
mokantis užsienio kalbų ar taisyklingo žodžių tarimo.
6
7
Lietuvių kalbos fonemos
Balsių fonemos• Trumpas nekirčiuotas balsis (mama)
• Trumpas kirčiuotas balsis (lazda)
• Ilgas nekirčiuotas balsis (drąsa)
• Ilgas balsis kirčiuotas dešininiu kirčio ženklu (kardas)
• Ilgas balsis kirčiuotas riestiniu kirčio ženklu (ačiū)
8
Balsių fonemų pagrindinio tono kitimo tendencijos
9
"a" "e" "ė" "i" "o" "u"150
170
190
210
230
250
270
Trumpas nekirčiuotas balsis Trumpas kirčiuotas balsis
Ilgas nekirčiuotas balsis Ilgas balsis kirčiuotas dešininiu kirčio ženklu
Ilgas balsis kirčiuotas riestiniu kirčio ženklu
Pag
rind
inis
ton
as [
Hz]
Pusbalsių fonemos• Nekirčiuotas pusbalsis (valsas)
• Kirčiuotas pusbalsis (vil 0kas)
• Minkštas nekirčiuotas pusbalsis (valia)
• Minkštas kirčiuotas pusbalsis (gul 0ti)
10
11
Pusbalsių fonemų pagrindinio tono kitimo tendencijos
"j" "l" "m" "n" "r" "v"150
170
190
210
Nekirčiuotas pusbalsis Kirčiuotas pusbalsis
Minkštas nekirčiuotas pusbalsis Minkštas kirčiuotas pusbalsis
Pag
rind
inis
ton
as [
Hz]
Balsiai ir pusbalsiai – periodiniai signalai
B a l s i s /a/
P u s b a l s i s /m/
12
Siūlomi sintezės metodai
• Harmoninis
Fonemos signalas išskaidomas į harmonikas
• Formantinis
Fonemos signalas išskaidomas į formantes
13
14
Fonemos signalo padalinimas į harmonikas
Tuo tikslu skaičiuojama signalo Furjė transformacija ir signalas dalinamas į dažnių juostas:
Amplitudinės dažnuminės charakteristikos
padalinimas į dažnių juostas (1)
15
Am
plitu
dė [
vnt.]
Dažnis [Hz]
15
16
16
Amplitudinės dažnuminės charakteristikos
padalinimas į dažnių juostas (2)
17
Am
plitu
dė [
vnt.]
Dažnis [Hz]
17
Pirmosios trys fonemos /a:˜/ harmonikos
18
18
19
Fonemos signalo padalinimas į formantes
Formantės – spektro gaubtinės maksimumai
Am
plitu
dė [
dB]
Dažnis [Hz]
Pirmosios trys fonemos /a:˜/ formantės
20
20
Fonemos signalo modelio diagrama
21
t) – k-ojo kanalo impulsinė charakteristika
t) – k-ojo kanalo įėjimų seka
k = 1, ..., K; čia K – kanalų skaičius
Impulsinės charakteristikos modelis
22
Signalo išskaidymas į bazinių signalų matricą ir koeficientų vektorių (1)
23
Vektorius gali būti išreikštas kaip matricos ir vektoriaus sandauga:
TN Nyyyy )1(,),2(),1(),0( y fonemos signalo atskaitos
Ny Ψ α
αΨy )(N
Tkkkkkkkkkkkkk AAAAAA )cos(),sin(),cos(),sin(),cos(),sin( 333322221111 α
čiaTT
KTT ][ 21 αααα
)(Ψ bazinių signalų matrica
KK ,,,, 11 θ
....,,1,
,
,
,
,2
233
22
11
KktaA
taA
aA
t
tf
kk
kk
kk
kk
kk
koeficientų vektorius
24
TM Myyyy )1(,),2(),1(),0( y vieno fonemos periodo atskaitos
eαθΦy )(M
𝚽=𝚿 (1:𝑀 , :)+𝚿 (𝑀+1: 2𝑀 ,: )+𝚿 (2𝑀+1 :3𝑀 ,: )
Prielaida: impulsinė charakteristika užgęsta po trijų periodų
Signalo išskaidymas į bazinių signalų matricą ir koeficientų vektorių (2)
Charakteringojo periodo išrinkimas (1)
25
Periodas, kurio amplitudė didžiausia, laikomas charakteringuoju periodu
26
Charakteringojo periodo išrinkimas (2)
Laikas [s]
Am
plitu
dė [
vnt.]
Impulsinės charakteristikos parametrų įvertinimas
27
Ieškome tokio parametrų vektoriaus įverčio , kuris minimizuotų funkcionalą
27
,2
2MyPr θΦθ
.1 ΦΦΦΦΦΦθΦ MM ΙP
čia yra ortogonalus projektorius į matricos stulpelių erdvės ortogonalų papildinį
Levenbergo-Markvarto metodas (Levenberg, 1944; Marquardt, 1963)
28
,1,0,1
2
1 lc llT
Kl
llTll θbθVIθVθVθθ
,θ
D
.yPθb θΦ,001.0lc
,
,yPθV θΦ
D
Iteracinė parametrų įvertinimo lygtis:
čia
T)( BΦPBΦPP θΦθΦθΦ DDD
G. Golub, V. Pereyra parodė, kad:
čia B yra matricos apibendrinta atvirkštinė matrica
29
Impulsinių charakteristikų parametrų įvertinimo algoritmas
29
Vieno-įėjimo ir vieno-išėjimo sistema su vienetinių impulsų įėjimais
Jei į sistemos įėjimą paduosime vienetinius impulsus
vienodais laiko tarpais, išėjime gausime signalą su
identiškais periodais
30
Fonemos signalo modelio diagrama
31
t) – k-ojo kanalo impulsinėcharakteristika
t) – k-ojo kanalo įėjimų seka
k=1, ..., K, čia K – kanalų skaičius
1) Fonemos signalas dalinamas į periodus ir užfiksuojami padalinimo taškai
2) Fonemos signalo komponentės dalinamos į periodus
3) Perioduose surandami lokalūs maksimumo taškai
32
Sistemos įėjimų parinkimas
Laikas [s]
Am
plitu
dė [
vnt.]
Pirmų trijų fonemos /a:˜/ MISO sistemos kanalų įėjimai
33
Bendra įėjimų kreivė
34
Laikas [s]
Am
plitu
dė [
vnt.]
– maksimali įėjimo reikšmė, – maksimalios reikšmės laiko momentas, – fonemos ilgis
Eksperimentiniai tyrimai
Eksperimentuose naudojamos realių garsų atskaitos
Garso formato parametrai: PCM 48 kHz, 16 bitų; stereo
35
Balsių ir pusbalsių modeliavimas harmoniniu ir formantiniu metodais
28 balsių fonemos
36
19 pusbalsių fonemų
Fonemos /a/ tikro ir modelinio signalų spektrai
37
Balsių modeliavimo tikslumas
38
Harmoninis metodas
Formantinis metodas
Pusbalsių modeliavimo tikslumas
39
Harmoninis metodas
Formantinis metodas
40
Rezultatai ir išvados1. Lietuvių kalboje yra devyniasdešimt dvi fonemos. Dvidešimt
aštuonios iš jų yra balsių fonemos, devyniolika – pusbalsių fonemos. Balsiai ir pusbalsiai yra periodiniai signalai.
2. Nekirčiuotų balsių ir pusbalsių fonemų pagrindiniai tonai yra didesni už tų pačių kirčiuotų balsių ir pusbalsių fonemų pagrindinius tonus.
3. Harmoninis metodas naudoja aukštesnės eilės modelius su didesniu parametrų skaičiumi palyginus su formantiniu metodu, tačiau garsai sintezuoti harmoniniu metodu skamba natūraliau. Visų vyriškų ir moteriškų balsių signalų spektrų vidutinių kvadratinių paklaidų vidurkis yra lygus 13.9 % formantinio metodo atveju ir 12.4 % harmoninio metodo atveju. Visų vyriškų ir moteriškų pusbalsių signalų spektrų vidutinių kvadratinių paklaidų vidurkis yra lygus 19.9 % formantinio metodo atveju ir 16.7 % harmoninio metodo atveju.
Ačiū už dėmesį