SGN-4010 PUHEENKÄSITTELYN MENETELMÄT Luento 4

Download SGN-4010 PUHEENKÄSITTELYN MENETELMÄT Luento  4

Post on 01-Jan-2016

28 views

Category:

Documents

0 download

Embed Size (px)

DESCRIPTION

SGN-4010 PUHEENKSITTELYN MENETELMT Luento 4. TTY/Signaalinksittelyn laitos Hanna Silen. Lineaarisen ennustuksen sovelluksia. Luennon aiheena lineaarisen ennustuksen sovellukset: Formanttien etsiminen Perustaajuuden mrittminen. Kertausta viimekertaisesta: lhde-suodin malli. - PowerPoint PPT Presentation

TRANSCRIPT

<p>No Slide Title</p> <p>SGN-4010 PUHEENKSITTELYN MENETELMT</p> <p>Luento 4TTY/Signaalinksittelyn laitosHanna Silen1Luennon aiheena lineaarisen ennustuksen sovellukset:</p> <p>Formanttien etsiminen</p> <p>Perustaajuuden mrittminenLineaarisen ennustuksen sovelluksia2</p> <p>Puhekehys voidaan kuvata lhde-suodin mallin avulla</p> <p>Jrjestelmn sytteen x(n) on kurkunp-ni ja ulostulona y(n) mitattu puhesignaali</p> <p>Kertausta viimekertaisesta: lhde-suodin malli3H(z)Y(z)X(z)Lineaarinen ennustus on yksi trkeimmist puheenksittelyn tykaluista</p> <p>Lyhenne LP (linear prediction) tai LPC (linear predictive coding)</p> <p>Puheenksittelyn kannalta LP:n trkein ominaisuus on sen kyky mallintaa ntvyl</p> <p>Ideana ennustaa puhesignaalin seuraavaa nytett edellisten nytteiden ja lineaarisen suotimen avulla (edellisten nytteiden lineaarikombinaationa)</p> <p>Aiemmin ksitelty ristikkorakenteinen malli ntvyllle on all-pole suodinLineaarinen ennustus on hyv menetelm suotimen parametrien estimointiinKertausta viimekertaisesta: lineaarinen ennustus4ntvylsuotimelle voidaan kytt mallia (all-pole suodin)</p> <p>eli</p> <p>All-pole jrjestelmn ulostulo voidaan ennustaa tydellisesti mikli sisnmeno ja ulostulon aiemmat arvot tunnetaan. Jtetn riippuvuus sisnmenosta pois ja tehdn ennustus pelkn ulostulon perusteella. Ulostulon estimaatti aikatasossa:</p> <p>Kertausta viimekertaisesta: lineaarinen ennustus5</p> <p>Tehtvn on mritt suotimen parametrit a(1),a(2),...,a(p)Tm tehdn yleens niin, ett ulostulon ja ennustuksen nelivirheiden summa minimoituu autokorrelaatioyhtliden avulla johdetuista normaaliyhtlist voidaan ratkaista ennustuskertoimet (LP-suotimen kertoimet)</p> <p>Kertausta viimekertaisesta: lineaarinen ennustus6</p> <p>Levinson-Durbin rekursio: tehokkaampi tapa ennustuskertoimien a(1),a(2),...,a(p) ratkaisemiseen</p> <p>Ideana on ratkaista symmetrinen Toeplitz-matriisiyhtl </p> <p>lohkoittain kasvattamalla vektorin x pituutta ja laskemalla uusi ratkaisu edellisten avulla</p> <p>Kertausta viimekertaisesta: Levinson-Durbin rekursio7</p> <p>Yhtlryhmn ratkaisu: vektori, joka on summa alempiasteisesta ratkaisusta ja sen vakiolla painotetusta knnksest </p> <p>Esim. kun aste on 3:</p> <p>miss k3 on heijastuskerroin ja </p> <p>Jotta tm olisi normaaliyhtliden ratkaisu, vaaditaan ainoastaan ett oikean puolen vektorin alkiot ensimmist lukuunottamatta ovat nollia, eliKertausta viimekertaisesta: Levinson-Durbin rekursio8</p> <p>Ratkaistaan termi k3</p> <p>ja tmn jlkeen termi E3 </p> <p>Kertausta viimekertaisesta: Levinson-Durbin rekursio9</p> <p>Vastaavasti, kun kasvatetaan lohkon koko n 1:st n:n:</p> <p>Aloitus ehdosta:</p> <p>Kertausta viimekertaisesta: Levinson-Durbin rekursio10</p> <p>Formantti on spektriss havaittava vahvistunut osavrhtelyalue tai taustalla oleva siirtofunktio-ominaisuus (napa)Formanttien estimointi11</p> <p>Kompleksitason yksikkympyrll, kun , siirtofunktio saa muodon:</p> <p>Jrjestelmn amplitudivaste - eli siirtofunktion itseisarvo - saa maksimiarvonsa, kun saa minimiarvonsa, eli kun =&gt; eli taajuudella: Napaparilla on siirtofunktio (tai tmn vakiolla kerrottu versio):</p> <p>Siirtofunktion kertoimet ovat siis:</p> <p>Napaparin amplitudivaste: formantin taajuus12</p> <p>Napapari taajuudella 1600 Hz (Fs = 16000 Hz), eli kulmataajuudella </p> <p>Napaparin amplitudivaste: formantin taajuus13</p> <p>Vastaavasti, napapari taajuudella 3200 Hz (Fs = 16000 Hz), eli kulmataajuudella Napaparin amplitudivaste: formantin taajuus14</p> <p>Formantin kaistanleveys ilmaisee, kuinka leve formantti onMikli formantti on jyrkk, sen kaistanleveys on pieni (ja pinvastoin)</p> <p>Kaistanleveys on sen taajuuskaistan leveyden puolikas hertsein, jolla amplitudivasteen arvo on laskenut 3dB maksimiarvosta</p> <p>Napaparin kaistanleveys riippuu navan etisyydest origosta:</p> <p>Napaparin amplitudivaste: formantin kaistanleveys15</p> <p>Napapari etisyydell 0.9 origosta (nytteenottotaajuus 16 kHz)</p> <p>kaistanleveys:</p> <p>Napaparin amplitudivaste: formantin kaistanleveys16</p> <p>Vastaavasti, kun r = 0.7</p> <p>ja r = 0.99Napaparin amplitudivaste: formantin kaistanleveys17</p> <p>Tarkastellaan viel kahden napaparin (0.9ej1 ja 0.9ej2 ) yhdistetty amplitudivastettaNapaparin amplitudivaste: napojen yhteisvaikutus18</p> <p>Napojen taajuuksien lhestyess toisiaan amplitudivasteen huiput sulautuvat yhteen</p> <p>Napaparin amplitudivaste: napojen yhteisvaikutus19</p> <p>Suoraviivainen tapa estimoida formantteja on jakaa LP-polynomi</p> <p>tekijihin</p> <p>miss ovat LP-polynomin nollakohdat</p> <p> Formanttien estimointi: tekijihin jako20</p> <p>LP-polynomin nollakohta zi voidaan kirjoittaa muodossa</p> <p>Mik tarkoittaa, ett suotimella 1/A(z) on formantti taajuudella i </p> <p>Formanttien estimointi: tekijihin jako21</p> <p>MATLABissa polynomin nollakohdat voi laskea komennolla roots</p> <p>Juurtaminen on laskennallisesti raskas operaatio, kytnnss kytetn jotakin iteratiivista menetelm</p> <p>Newton-Raphson-algoritmi toimii hyvin jos juurten alkuarvaukset ovat hyvt</p> <p>ntvyl ja LP-polynomin nollat muuttuvat suhteellisen hitaasti Kytetn alkuarvoina edellisen puhekehyksen LP-polynomin nollakohtiaFormanttien estimointi: tekijihin jako22Tekijihin jakamiseen perustuva formanttien estimointi:Ikkunoidaan signaali</p> <p>Lasketaan kullekin puhekehykselle LP-polynomi A(z) (aste nytteenotto-taajuuden mukaan)</p> <p>Juurretaan suotimen 1/A(z) nimittj (siis etsitn A(z):n nollakohdat)</p> <p>Formanttien taajuudet saadaan LP-polynomin nollakohtien (1/A(z):n napojen) kulmista (muuntamalla kulmataajuudet hertseiksi)</p> <p>Formanttien estimointi: tekijihin jako23Fs: 8 kHz</p> <p>LP-mallin aste: 8</p> <p>Kehyksen pituus: 30 ms</p> <p>Formanttien estimointi: tekijihin jako24</p> <p>Siistitn edellisen kalvon kuviota</p> <p>LP-mallin aste: 12Huomioidaan vain navat, joiden:1) sde on vhintn 0.92) kulma vhintn 200 Hz</p> <p>Formanttien estimointi: tekijihin jako25Toinen tapa formanttien estimointiin LP-polynomin A(z) avulla on laskea siirtofunktion 1/A(z) amplitudivaste</p> <p>Formanttien pitisi olla suotimen 1/A(z) amplitudivasteen maksimien kohdalla</p> <p>Nopeampi tapa: formanttienpitisi olla LP-polynomin A(z)amplitudivasteen minimienkohdallaFormanttien estimointi: amplitudivasteen maksimien etsint26</p> <p>Formanttien estimointi etsimll amplitudivasteen maksimit toimii psntisesti hyvin</p> <p>Ongelmia syntyy, kun formantit ovat niin lhell toisiaan, ett ne sulautuvat yhteenTllin amplitudivasteessa on vain yksi maksimi</p> <p>Muokataan LP-mallia ongelman ratkaisemiseksiFormanttien estimointi: amplitudivasteen maksimien etsint27</p> <p>Lasketaan jrjestelmn amplitudivaste ympyrn muotoisella kehll yksikkympyrn sisll pisteiss</p> <p>miss 0 &lt; r &lt; 1 ja 0 &lt; 2</p> <p>Amplitudivasteen piikeist tulee tervmpi ja helpommin eroteltaviaMcCandlessin menetelm28</p> <p>Laskennallisesti:</p> <p>Tm on jonon</p> <p>DTFT, joka voidaan laskea nopeasti nollilla jatketun jonon FFT:nMcCandlessin menetelm29</p> <p>Tarkastellaan napapareja 0.9e0.3j ja 0.85e0.4j</p> <p>Lasketaan amplitudivasteen arvo yksikkympyrll: formantit sulautuvat</p> <p>Formantit saadaan erotettua, kun lasketaan amplitudivaste yksikkympyrn sisllMcCandlessin menetelm30Siirretn LP-polynomin nollat yksikkympyrlleTmn jlkeen amplitudivasteen minimit on helppo erottaa</p> <p>Nollien siirtminen asettamalla viimeinen heijastuskerroin ykkseksi:Viimeinen heijastuskerroin = LP-polynomin viimeisen termin kerroin = LP-polynomin nollakohtien tulo</p> <p>Nollat eivt kuitenkaan siirry steittisesti yksikkympyrlle=&gt; Formanttitaajuuksiin tulee pieni vristym</p> <p>Kangin ja Coulterin menetelm31Etsitn amplitudivasteen minimien sijaan sen toisen derivaatan maksimi</p> <p>Toinen derivaatta mittaa funktion kuperuutta tai koveruuttaFunktion kuvaajassa jyrkk knns toisen derivaatan maksimikohdassa</p> <p>Menetelmll voidaan arvioida mys formantin kaistanleveytt</p> <p>Christensenin menetelm32Puheen perustaajuutta f0 voidaan estimoida laskemalla kehyksen autokorrelaatiofunktio (korrelaatio itsens kanssa) ja etsimll autokorrelaation maksimi sopivalla viivealueella</p> <p>LP-mallin kytt perustaajuuden estimoinnissa33</p> <p>Fs = 8kHz</p> <p>Perusjakson pituus:</p> <p>n. 70 nytett eli70 / 8000Hz = 8.75 ms</p> <p>Perustaajuus:</p> <p>8000Hz / 70 = 114 Hz</p> <p>Perustaajuus f0 saadaan laskettua perusjaksonajasta T0 (l. lyhimmst jaksonajasta, jolla signaali toistaa itsen)</p> <p>Perusjaksonaika taas saadaan jakamalla jakson pituus nyttein perustaajuudella Fs</p> <p>Esim. taajuusalue 50500 Hz vastaa autokorrelaation viiveit Fs/500Fs/50</p> <p>Autokorrelaatiofunktion maksimin etsintn perustuva menetelm toimii psntisesti hyvin, mutta formanttien aiheuttamat huiput tuottavat joskus virheellisen perustaajuusarvon</p> <p>Formantit voidaan poistaa signaalista LP-mallin avullaLP-mallin kytt perustaajuuden estimoinnissa34</p> <p>Puhekehys Y(z) muodostuu ntvylmallilla 1/A(z) suodatetusta glottishertteest X(z)</p> <p>EliLP-mallin kytt perustaajuuden estimoinnissa351/A(z)Y(z)X(z)</p> <p>Vastaavasti formantit voidaan poistaa (ratkaista glottisherte) suodattamalla puhekehys LP-parametreista saadulla knteissuotimella A(z)</p> <p>Glottisherte X(z) saadaan siis suodattamalla puhekehys Y(z) knteissuotimella A(z)</p> <p>LP-mallin kytt perustaajuuden estimoinnissa36A(z)X(z)Y(z)</p> <p>Koska all-pole suodin 1/A(z) aiheuttaa signaaliin formantit, voidaan ne siis poistaa FIR-knteissuotimella A(z)</p> <p>Kun LP-mallin aste on riittvn matala, se mallintaa vain formantteja (ntvyl) ei perustaajuutta (glottista)</p> <p>Autokorrelaatio voidaan nyt laskea glottishertteest X(z) puhekehyksen Y(z) sijaanFormanttien vaikutus pienenee</p> <p>Menetelmst kytetn nimityst SIFT (simple inverse filter tracking)LP-mallin kytt perustaajuuden estimoinnissa37SIFT-esisuodatettu autokorrelaatio:LP-mallin kytt perustaajuuden estimoinnissa38</p> <p>Lineaarinen ennustus ehk trkein yksittinen puheenksittelyn menetelm</p> <p>LP:n sovellukset perustuvat puheen esittmiseen herte-suodin mallin avullaLineaarisen ennustuksen avulla voidaan estimoida ntvylsuodatinta</p> <p>Puhekehyksest estimoidun ntvylsuotimen 1/A(z) navoista/amplitudivasteen huipuista voidaan ptell puhekehyksen formanttitaajuudet</p> <p>Perustaajuuden estimointia voidaan parantaa poistamalla formanttien vaikutus puhekehyksest suodattamalla se suotimella A(z)</p> <p>Edelleen trke muistaa, ett puhetta ksitelln muutamien kymmenien millisekuntien kehyksissYhteenveto39</p>