SGN-4010 PUHEENKÄSITTELYN MENETELMÄTLuento 1
18.1.2012
TTY/Signaalinkäsittelyn laitosKatariina Mahkonen
2
Name/Title of the presentation to be changed on the master page
Miksi olet täällä?
Mitä haluat oppia tällä kurssilla?
Kurssin sisältö?
5.12.2007
3
• Materiaali:• Pääasiallisena materiaalina luentomoniste• Osalla luentokerroista luentokalvot • (Lisälukemista kaipaaville: kurssikirja T.F. Quatieri, Discrete-Time
Speech Signal Processing: Principles and Practice, Prentice Hall PTR, 2002)
• Harjoitustehtävät (5 tehtävää / harjoituskerta)• Tentissä pärjää osaamalla luentojen, harjoitusten, prujun ja kalvojen
asiat
• Tähän toteutuskertaan liittyvät 3 tenttiä: 5.3.2012, 6.4.2012 ja viimeisen ajankohta on vielä avoin, mutta ilmestyy kyllä POP:iin aikanaan.
Kurssijärjestelyt (2)
4
• Ryhmät:• Pe 10-12, TC303• Pe 12-14, TC303
• Harjoitusryhmiin ei tarvitse ilmoittautua
Harjoitusryhmät
5
Harjoituskäytäntö
• Harjoituksia 5 x 2h = 10h (alkavat viikolla 50)• Pisteitä jaossa kullakin kerralla 5p (eli yhteensä 25 p)
• Hyväksyttyyn tenttiin saa lisäpisteitä seuraavasti: • 10 harjoituspistettä tai enemmän (40 %) => 1 piste • 15 harjoituspistettä tai enemmän (60 %) => 2 pistettä • 20 harjoituspistettä tai enemmän (80 %) => 3 pistettä l. arvosanan
korotus
• Tehtäviä ei tarvitse ratkaista etukäteen, mutta on suositeltavaa tutustua tehtäviin ja käsiteltäviin aiheisiin ennen harjoituksiin tuloa.
6
Name/Title of the presentation to be changed on the master page
• Jotakin ihmisen puheentuottoelimistöstä
• Artikulatorista fonetiikkaa eli äänteiden luokittelua
• Vähän fyysisestä puheentuoton mallintamisesta: suoran putken akustiikkaa
• Akustisten piirteiden signaalinkäsittelyllisiä määritysmenetelmiä:• Lineaariprediktio, • Autokorrelaatiomenetelmä
• Yleiskatsaus puhesynteesiin
5.12.2007
Kurssi on aiempina toteutuskertoina sisältänyt:
7
Matemaattisia esitietoja
Osaatko vastata seuraaviin kysymyksiin?
• Mikä on suodattimen impulssivaste/taajuusvaste?
• Miten signaaleiden konvoluutio lasketaan?
• Mitä eroa on FIR- ja IIR-suodattimilla?
• Miten FFT lasketaan? Entä z-muunnos?
• Mitä ovat suodattimen nollat ja navat?
Asioita voi kerrata esim. kurssin SGN-1200 prujusta
8
Mitä puheenkäsittely on?
• Tarkoittaa (loogisesti) puhesignaalin käsittelyä
• Sovelluksia:• Koodaus (esim. matkapuhelimet)• Tunnistus (puheesta tekstiksi)• Synteesi (tekstistä puheeksi)• Ehostus (laadun parannus)• Muokkaus (muokataan äänestä toisenlainen)• Puhujantunnistus (kuka puhuu)
• Käytetään signaalinkäsittelyn menetelmiä• Fourier-muunnos, ikkunointi, autokorrelaatio,...
• Myös erityisesti puheelle soveltuvia menetelmiä• LPC-analyysi, Markovin piilomallit, pitch-synchronous overlap-add,...
9
Name/Title of the presentation to be changed on the master page
Puhesignaalin …• koodausta (esim. matkapuhelimet)• laadun parantamista: ymmärrettävyys, häiriöiden poisto
• muokkausta (tehdään äänestä toisenlainen)• syntetisointia (tekstistä puheeksi)• puhujan tunnistusta (kuka puhuu)
• kielellisen sisällön tunnistus eli puheentunnistus (puheesta tekstiksi)
Puhesignaalinkäsittely on esimerkiksi:
5.12.2007
10
Puheenkoodaus
• Digitaalisen puheen ‘pakkaaminen’ siirtoa tai tallennusta varten (esim. matkapuhelimissa), kaupallisesti tärkein puheenkäsittelyn sovellus
• Tavoitteet:• Hyvä subjektiivinen laatu• Pieni määrä bittejä• Pieni viive• Nopea laskenta• Virhesietoinen• Kestää useamman peräkkäisen koodauksen
• GSM-verkossa käytössä AMR (adaptive multirate)-puhekoodekki
• Bittinopeudet 4.75...12.2 kbps
• Käsitellään kurssilla SGN-4050 Puheenkoodaus
11
Name/Title of the presentation to be changed on the master page
Mitä on puheen laatu? -subjektiivista
SNR (Signal to Noise Ratio) on melko huono mittari.
Esimerkki: ABE – (Lähde: Juho Kontio, diplomityö, TKK 2004)
Laadun parannus
5.12.2007
12
Name/Title of the presentation to be changed on the master page
Imitointi
voice conversion
Muokkaus
5.12.2007
13
Puhesynteesi
• Tekstistä puheeksi
• Tarvitaan tietoa puheesta ja kielestä
• Useita eri lohkoja• Tekstianalyysi: syntaktinen analyysi (subjekti, predikaatti yms.),
numeroiden ja lyhenteiden laajennus• Foneettinen analyysi: tekstistä foneemeiksi (ääntämyksen
mukaiseen muotoon)• Prosodia: painot, äänteiden kesto, f0:n generointi• Synteesi: puhesignaalin generointi edellä olevan avulla
• Eri synteesimenetelmiä:• Sääntöpohjainen synteesi (formanttisynteesi)• Konkatenatiivinen synteesi (difonisynteesi, unit selection –synteesi)• ’Tilastollinen parametrinen’ synteesi (HMM-pohjainen)• Artikulatorinen synteesi
Stephen Hawkins using TTS
14
Name/Title of the presentation to be changed on the master page
Puhujantunnistus
5.12.2007
15
Puheentunnistus
• Puheesta tekstiksi
• Pitkät perinteet mutta vieläkin osin ratkaisematon ongelma
• Perustuu todennäköisyyslaskentaan• Millä todennäköisyydella = “a”?• Myös kieli mallinnetaan tilastollisesti
• P(”melko todennäköinen lause”)?
• Nämä todennäköisyydet yhdistetään
• Käsitellään kursseilla SGN-4106 Speech Recognition ja
SGN-4507 Speech Recognition Laboratory
16
Puheen tuottaminen ja sen mallintaminen
Quatieri: Discrete –Time Speech Signal Processing Principles and Practice
17
Puheen tuottaminen ja sen mallintaminen
Quatieri: Discrete –Time Speech Signal Processing Principles and Practice
Ikkunointi
• Puhetta käsitellään kehyksittäin (frame) eli ikkunoittain
• Toimii seuraavasti:
Sovellus: puheen perustaajuuden muuttaminen
• Idea: muutetaan puhujan perustaajuutta
• Nk. PSOLA-algoritmi (pitch-synchronous overlap-add):• Etsitään puheen perustaajuus soinnillisista kohdista (ei helppoa)• Otetaan jaksoja hitaammin tai tiheämmin• Summataan jaksot
PSOLA
21
• Praat:• Boersma, Paul & Weenink, David (2008). Praat: doing phonetics by
computer (Version 5.0.42) [Computer program]. Retrieved November 26, 2008, from http://www.praat.org/
• Käytetään viikon 02/2009 harkoissa (siis 3. harkoissa)
• Suomenkielinen Praat-opas:• Mietta Lennes, Praat-opas 2004
http://www.helsinki.fi/puhetieteet/atk/praat/
Praat: doing phonetics by computer
22
• MATLAB-oppaita:• http://www.helsinki.fi/~mjlaine/matlab/ (suomenkielinen)• http://www.helsinki.fi/~mjlaine/matlab/matlab-primer.html
• Praat:• http://www.praat.org/ (ohjelma)• http://www.helsinki.fi/puhetieteet/atk/praat/ (suomenkielinen opas)
• Fonetiikka:• Suomenkilinen fonetiikkasanasto:
http://www.opiskelijakirjasto.lib.helsinki.fi/fonterm/• IPA: http://www2.arts.gla.ac.uk/IPA/fullchart.html
Linkkejä