sgn-4010 puheenkÄsittelyn menetelmÄt luento 4

Download SGN-4010 PUHEENKÄSITTELYN MENETELMÄT Luento  4

Post on 01-Jan-2016

28 views

Category:

Documents

0 download

Embed Size (px)

DESCRIPTION

SGN-4010 PUHEENKÄSITTELYN MENETELMÄT Luento 4. TTY/Signaalinkäsittelyn laitos Hanna Silen. Lineaarisen ennustuksen sovelluksia. Luennon aiheena lineaarisen ennustuksen sovellukset: Formanttien etsiminen Perustaajuuden määrittäminen. Kertausta viimekertaisesta: lähde-suodin –malli. - PowerPoint PPT Presentation

TRANSCRIPT

No Slide Title

SGN-4010 PUHEENKSITTELYN MENETELMT

Luento 4TTY/Signaalinksittelyn laitosHanna Silen1Luennon aiheena lineaarisen ennustuksen sovellukset:

Formanttien etsiminen

Perustaajuuden mrittminenLineaarisen ennustuksen sovelluksia2

Puhekehys voidaan kuvata lhde-suodin mallin avulla

Jrjestelmn sytteen x(n) on kurkunp-ni ja ulostulona y(n) mitattu puhesignaali

Kertausta viimekertaisesta: lhde-suodin malli3H(z)Y(z)X(z)Lineaarinen ennustus on yksi trkeimmist puheenksittelyn tykaluista

Lyhenne LP (linear prediction) tai LPC (linear predictive coding)

Puheenksittelyn kannalta LP:n trkein ominaisuus on sen kyky mallintaa ntvyl

Ideana ennustaa puhesignaalin seuraavaa nytett edellisten nytteiden ja lineaarisen suotimen avulla (edellisten nytteiden lineaarikombinaationa)

Aiemmin ksitelty ristikkorakenteinen malli ntvyllle on all-pole suodinLineaarinen ennustus on hyv menetelm suotimen parametrien estimointiinKertausta viimekertaisesta: lineaarinen ennustus4ntvylsuotimelle voidaan kytt mallia (all-pole suodin)

eli

All-pole jrjestelmn ulostulo voidaan ennustaa tydellisesti mikli sisnmeno ja ulostulon aiemmat arvot tunnetaan. Jtetn riippuvuus sisnmenosta pois ja tehdn ennustus pelkn ulostulon perusteella. Ulostulon estimaatti aikatasossa:

Kertausta viimekertaisesta: lineaarinen ennustus5

Tehtvn on mritt suotimen parametrit a(1),a(2),...,a(p)Tm tehdn yleens niin, ett ulostulon ja ennustuksen nelivirheiden summa minimoituu autokorrelaatioyhtliden avulla johdetuista normaaliyhtlist voidaan ratkaista ennustuskertoimet (LP-suotimen kertoimet)

Kertausta viimekertaisesta: lineaarinen ennustus6

Levinson-Durbin rekursio: tehokkaampi tapa ennustuskertoimien a(1),a(2),...,a(p) ratkaisemiseen

Ideana on ratkaista symmetrinen Toeplitz-matriisiyhtl

lohkoittain kasvattamalla vektorin x pituutta ja laskemalla uusi ratkaisu edellisten avulla

Kertausta viimekertaisesta: Levinson-Durbin rekursio7

Yhtlryhmn ratkaisu: vektori, joka on summa alempiasteisesta ratkaisusta ja sen vakiolla painotetusta knnksest

Esim. kun aste on 3:

miss k3 on heijastuskerroin ja

Jotta tm olisi normaaliyhtliden ratkaisu, vaaditaan ainoastaan ett oikean puolen vektorin alkiot ensimmist lukuunottamatta ovat nollia, eliKertausta viimekertaisesta: Levinson-Durbin rekursio8

Ratkaistaan termi k3

ja tmn jlkeen termi E3

Kertausta viimekertaisesta: Levinson-Durbin rekursio9

Vastaavasti, kun kasvatetaan lohkon koko n 1:st n:n:

Aloitus ehdosta:

Kertausta viimekertaisesta: Levinson-Durbin rekursio10

Formantti on spektriss havaittava vahvistunut osavrhtelyalue tai taustalla oleva siirtofunktio-ominaisuus (napa)Formanttien estimointi11

Kompleksitason yksikkympyrll, kun , siirtofunktio saa muodon:

Jrjestelmn amplitudivaste - eli siirtofunktion itseisarvo - saa maksimiarvonsa, kun saa minimiarvonsa, eli kun => eli taajuudella: Napaparilla on siirtofunktio (tai tmn vakiolla kerrottu versio):

Siirtofunktion kertoimet ovat siis:

Napaparin amplitudivaste: formantin taajuus12

Napapari taajuudella 1600 Hz (Fs = 16000 Hz), eli kulmataajuudella

Napaparin amplitudivaste: formantin taajuus13

Vastaavasti, napapari taajuudella 3200 Hz (Fs = 16000 Hz), eli kulmataajuudella Napaparin amplitudivaste: formantin taajuus14

Formantin kaistanleveys ilmaisee, kuinka leve formantti onMikli formantti on jyrkk, sen kaistanleveys on pieni (ja pinvastoin)

Kaistanleveys on sen taajuuskaistan leveyden puolikas hertsein, jolla amplitudivasteen arvo on laskenut 3dB maksimiarvosta

Napaparin kaistanleveys riippuu navan etisyydest origosta:

Napaparin amplitudivaste: formantin kaistanleveys15

Napapari etisyydell 0.9 origosta (nytteenottotaajuus 16 kHz)

kaistanleveys:

Napaparin amplitudivaste: formantin kaistanleveys16

Vastaavasti, kun r = 0.7

ja r = 0.99Napaparin amplitudivaste: formantin kaistanleveys17

Tarkastellaan viel kahden napaparin (0.9ej1 ja 0.9ej2 ) yhdistetty amplitudivastettaNapaparin amplitudivaste: napojen yhteisvaikutus18

Napojen taajuuksien lhestyess toisiaan amplitudivasteen huiput sulautuvat yhteen

Napaparin amplitudivaste: napojen yhteisvaikutus19

Suoraviivainen tapa estimoida formantteja on jakaa LP-polynomi

tekijihin

miss ovat LP-polynomin nollakohdat

Formanttien estimointi: tekijihin jako20

LP-polynomin nollakohta zi voidaan kirjoittaa muodossa

Mik tarkoittaa, ett suotimella 1/A(z) on formantti taajuudella i

Formanttien estimointi: tekijihin jako21

MATLABissa polynomin nollakohdat voi laskea komennolla roots

Juurtaminen on laskennallisesti raskas operaatio, kytnnss kytetn jotakin iteratiivista menetelm

Newton-Raphson-algoritmi toimii hyvin jos juurten alkuarvaukset ovat hyvt

ntvyl ja LP-polynomin nollat muuttuvat suhteellisen hitaasti Kytetn alkuarvoina edellisen puhekehyksen LP-polynomin nollakohtiaFormanttien estimointi: tekijihin jako22Tekijihin jakamiseen perustuva formanttien estimointi:Ikkunoidaan signaali

Lasketaan kullekin puhekehykselle LP-polynomi A(z) (aste nytteenotto-taajuuden mukaan)

Juurretaan suotimen 1/A(z) nimittj (siis etsitn A(z):n nollakohdat)

Formanttien taajuudet saadaan LP-polynomin nollakohtien (1/A(z):n napojen) kulmista (muuntamalla kulmataajuudet hertseiksi)

Formanttien estimointi: tekijihin jako23Fs: 8 kHz

LP-mallin aste: 8

Kehyksen pituus: 30 ms

Formanttien estimointi: tekijihin jako24

Siistitn edellisen kalvon kuviota

LP-mallin aste: 12Huomioidaan vain navat, joiden:1) sde on vhintn 0.92) kulma vhintn 200 Hz

Formanttien estimointi: tekijihin jako25Toinen tapa formanttien estimointiin LP-polynomin A(z) avulla on laskea siirtofunktion 1/A(z) amplitudivaste

Formanttien pitisi olla suotimen 1/A(z) amplitudivasteen maksimien kohdalla

Nopeampi tapa: formanttienpitisi olla LP-polynomin A(z)amplitudivasteen minimienkohdallaFormanttien estimointi: amplitudivasteen maksimien etsint26

Formanttien estimointi etsimll amplitudivasteen maksimit toimii psntisesti hyvin

Ongelmia syntyy, kun formantit ovat niin lhell toisiaan, ett ne sulautuvat yhteenTllin amplitudivasteessa on vain yksi maksimi

Muokataan LP-mallia ongelman ratkaisemiseksiFormanttien estimointi: amplitudivasteen maksimien etsint27

Lasketaan jrjestelmn amplitudivaste ympyrn muotoisella kehll yksikkympyrn sisll pisteiss

miss 0 < r < 1 ja 0 < 2

Amplitudivasteen piikeist tulee tervmpi ja helpommin eroteltaviaMcCandlessin menetelm28

Laskennallisesti:

Tm on jonon

DTFT, joka voidaan laskea nopeasti nollilla jatketun jonon FFT:nMcCandlessin menetelm29

Tarkastellaan napapareja 0.9e0.3j ja 0.85e0.4j

Lasketaan amplitudivasteen arvo yksikkympyrll: formantit sulautuvat

Formantit saadaan erotettua, kun lasketaan amplitudivaste yksikkympyrn sisllMcCandlessin menetelm30Siirretn LP-polynomin nollat yksikkympyrlleTmn jlkeen amplitudivasteen minimit on helppo erottaa

Nollien siirtminen asettamalla viimeinen heijastuskerroin ykkseksi:Viimeinen heijastuskerroin = LP-polynomin viimeisen termin kerroin = LP-polynomin nollakohtien tulo

Nollat eivt kuitenkaan siirry steittisesti yksikkympyrlle=> Formanttitaajuuksiin tulee pieni vristym

Kangin ja Coulterin menetelm31Etsitn amplitudivasteen minimien sijaan sen toisen derivaatan maksimi

Toinen derivaatta mittaa funktion kuperuutta tai koveruuttaFunktion kuvaajassa jyrkk knns toisen derivaatan maksimikohdassa

Menetelmll voidaan arvioida mys formantin kaistanleveytt

Christensenin menetelm32Puheen perustaajuutta f0 voidaan estimoida laskemalla kehyksen autokorrelaatiofunktio (korrelaatio itsens kanssa) ja etsimll autokorrelaation maksimi sopivalla viivealueella

LP-mallin kytt perustaajuuden estimoinnissa33

Fs = 8kHz

Perusjakson pituus:

n. 70 nytett eli70 / 8000Hz = 8.75 ms

Perustaajuus:

8000Hz / 70 = 114 Hz

Perustaajuus f0 saadaan laskettua perusjaksonajasta T0 (l. lyhimmst jaksonajasta, jolla signaali toistaa itsen)

Perusjaksonaika taas saadaan jakamalla jakson pituus nyttein perustaajuudella Fs

Esim. taajuusalue 50500 Hz vastaa autokorrelaation viiveit Fs/500Fs/50

Autokorrelaatiofunktion maksimin etsintn perustuva menetelm toimii psntisesti hyvin, mutta formanttien aiheuttamat huiput tuottavat joskus virheellisen perustaajuusarvon

Formantit voidaan poistaa signaalista LP-mallin avullaLP-mallin kytt perustaajuuden estimoinnissa34

Puhekehys Y(z) muodostuu ntvylmallilla 1/A(z) suodatetusta glottishertteest X(z)

EliLP-mallin kytt perustaajuuden estimoinnissa351/A(z)Y(z)X(z)

Vastaavasti formantit voidaan poistaa (ratkaista glottisherte) suodattamalla puhekehys LP-parametreista saadulla knteissuotimella A(z)

Glottisherte X(z) saadaan siis suodattamalla puhekehys Y(z) knteissuotimella A(z)

LP-mallin kytt perustaajuuden estimoinnissa36A(z)X(z)Y(z)

Koska all-pole suodin 1/A(z) aiheuttaa signaaliin formantit, voidaan ne siis poistaa FIR-knteissuotimella A(z)

Kun LP-mallin aste on riittvn matala, se mallintaa vain formantteja (ntvyl) ei perustaajuutta (glottista)

Autokorrelaatio voidaan nyt laskea glottishertteest X(z) puhekehyksen Y(z) sijaanFormanttien vaikutus pienenee

Menetelmst kytetn nimityst SIFT (simple inverse filter tracking)LP-mallin kytt perustaajuuden estimoinnissa37SIFT-esisuodatettu autokorrelaatio:LP-mallin kytt