sgn-4010 puheenkÄsittelyn menetelmÄt luento 1 18.1.2012

22
SGN-4010 PUHEENKÄSITTELYN MENETELMÄT Luento 1 18.1.2012 TTY/Signaalinkäsittelyn laitos Katariina Mahkonen

Upload: malik-rojas

Post on 01-Jan-2016

46 views

Category:

Documents


2 download

DESCRIPTION

SGN-4010 PUHEENKÄSITTELYN MENETELMÄT Luento 1 18.1.2012. TTY/Signaalinkäsittelyn laitos Katariina Mahkonen. Kurssin sisältö?. Miksi olet täällä? Mitä haluat oppia tällä kurssilla?. Kurssijärjestelyt (2). Materiaali: Pääasiallisena materiaalina luentomoniste - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: SGN-4010 PUHEENKÄSITTELYN MENETELMÄT Luento 1 18.1.2012

SGN-4010 PUHEENKÄSITTELYN MENETELMÄTLuento 1

18.1.2012

TTY/Signaalinkäsittelyn laitosKatariina Mahkonen

Page 2: SGN-4010 PUHEENKÄSITTELYN MENETELMÄT Luento 1 18.1.2012

2

Name/Title of the presentation to be changed on the master page

Miksi olet täällä?

Mitä haluat oppia tällä kurssilla?

Kurssin sisältö?

5.12.2007

Page 3: SGN-4010 PUHEENKÄSITTELYN MENETELMÄT Luento 1 18.1.2012

3

• Materiaali:• Pääasiallisena materiaalina luentomoniste• Osalla luentokerroista luentokalvot • (Lisälukemista kaipaaville: kurssikirja T.F. Quatieri, Discrete-Time

Speech Signal Processing: Principles and Practice, Prentice Hall PTR, 2002)

• Harjoitustehtävät (5 tehtävää / harjoituskerta)• Tentissä pärjää osaamalla luentojen, harjoitusten, prujun ja kalvojen

asiat

• Tähän toteutuskertaan liittyvät 3 tenttiä: 5.3.2012, 6.4.2012 ja viimeisen ajankohta on vielä avoin, mutta ilmestyy kyllä POP:iin aikanaan.

Kurssijärjestelyt (2)

Page 4: SGN-4010 PUHEENKÄSITTELYN MENETELMÄT Luento 1 18.1.2012

4

• Ryhmät:• Pe 10-12, TC303• Pe 12-14, TC303

• Harjoitusryhmiin ei tarvitse ilmoittautua

Harjoitusryhmät

Page 5: SGN-4010 PUHEENKÄSITTELYN MENETELMÄT Luento 1 18.1.2012

5

Harjoituskäytäntö

• Harjoituksia 5 x 2h = 10h (alkavat viikolla 50)• Pisteitä jaossa kullakin kerralla 5p (eli yhteensä 25 p)

• Hyväksyttyyn tenttiin saa lisäpisteitä seuraavasti: • 10 harjoituspistettä tai enemmän (40 %) => 1 piste • 15 harjoituspistettä tai enemmän (60 %) => 2 pistettä • 20 harjoituspistettä tai enemmän (80 %) => 3 pistettä l. arvosanan

korotus

• Tehtäviä ei tarvitse ratkaista etukäteen, mutta on suositeltavaa tutustua tehtäviin ja käsiteltäviin aiheisiin ennen harjoituksiin tuloa.

Page 6: SGN-4010 PUHEENKÄSITTELYN MENETELMÄT Luento 1 18.1.2012

6

Name/Title of the presentation to be changed on the master page

• Jotakin ihmisen puheentuottoelimistöstä

• Artikulatorista fonetiikkaa eli äänteiden luokittelua

• Vähän fyysisestä puheentuoton mallintamisesta: suoran putken akustiikkaa

• Akustisten piirteiden signaalinkäsittelyllisiä määritysmenetelmiä:• Lineaariprediktio, • Autokorrelaatiomenetelmä

• Yleiskatsaus puhesynteesiin

5.12.2007

Kurssi on aiempina toteutuskertoina sisältänyt:

Page 7: SGN-4010 PUHEENKÄSITTELYN MENETELMÄT Luento 1 18.1.2012

7

Matemaattisia esitietoja

Osaatko vastata seuraaviin kysymyksiin?

• Mikä on suodattimen impulssivaste/taajuusvaste?

• Miten signaaleiden konvoluutio lasketaan?

• Mitä eroa on FIR- ja IIR-suodattimilla?

• Miten FFT lasketaan? Entä z-muunnos?

• Mitä ovat suodattimen nollat ja navat?

Asioita voi kerrata esim. kurssin SGN-1200 prujusta

Page 8: SGN-4010 PUHEENKÄSITTELYN MENETELMÄT Luento 1 18.1.2012

8

Mitä puheenkäsittely on?

• Tarkoittaa (loogisesti) puhesignaalin käsittelyä

• Sovelluksia:• Koodaus (esim. matkapuhelimet)• Tunnistus (puheesta tekstiksi)• Synteesi (tekstistä puheeksi)• Ehostus (laadun parannus)• Muokkaus (muokataan äänestä toisenlainen)• Puhujantunnistus (kuka puhuu)

• Käytetään signaalinkäsittelyn menetelmiä• Fourier-muunnos, ikkunointi, autokorrelaatio,...

• Myös erityisesti puheelle soveltuvia menetelmiä• LPC-analyysi, Markovin piilomallit, pitch-synchronous overlap-add,...

Page 9: SGN-4010 PUHEENKÄSITTELYN MENETELMÄT Luento 1 18.1.2012

9

Name/Title of the presentation to be changed on the master page

Puhesignaalin …• koodausta (esim. matkapuhelimet)• laadun parantamista: ymmärrettävyys, häiriöiden poisto

• muokkausta (tehdään äänestä toisenlainen)• syntetisointia (tekstistä puheeksi)• puhujan tunnistusta (kuka puhuu)

• kielellisen sisällön tunnistus eli puheentunnistus (puheesta tekstiksi)

Puhesignaalinkäsittely on esimerkiksi:

5.12.2007

Page 10: SGN-4010 PUHEENKÄSITTELYN MENETELMÄT Luento 1 18.1.2012

10

Puheenkoodaus

• Digitaalisen puheen ‘pakkaaminen’ siirtoa tai tallennusta varten (esim. matkapuhelimissa), kaupallisesti tärkein puheenkäsittelyn sovellus

• Tavoitteet:• Hyvä subjektiivinen laatu• Pieni määrä bittejä• Pieni viive• Nopea laskenta• Virhesietoinen• Kestää useamman peräkkäisen koodauksen

• GSM-verkossa käytössä AMR (adaptive multirate)-puhekoodekki

• Bittinopeudet 4.75...12.2 kbps

• Käsitellään kurssilla SGN-4050 Puheenkoodaus

Page 11: SGN-4010 PUHEENKÄSITTELYN MENETELMÄT Luento 1 18.1.2012

11

Name/Title of the presentation to be changed on the master page

Mitä on puheen laatu? -subjektiivista

SNR (Signal to Noise Ratio) on melko huono mittari.

Esimerkki: ABE – (Lähde: Juho Kontio, diplomityö, TKK 2004)

Laadun parannus

5.12.2007

Page 12: SGN-4010 PUHEENKÄSITTELYN MENETELMÄT Luento 1 18.1.2012

12

Name/Title of the presentation to be changed on the master page

Imitointi

voice conversion

Muokkaus

5.12.2007

Page 13: SGN-4010 PUHEENKÄSITTELYN MENETELMÄT Luento 1 18.1.2012

13

Puhesynteesi

• Tekstistä puheeksi

• Tarvitaan tietoa puheesta ja kielestä

• Useita eri lohkoja• Tekstianalyysi: syntaktinen analyysi (subjekti, predikaatti yms.),

numeroiden ja lyhenteiden laajennus• Foneettinen analyysi: tekstistä foneemeiksi (ääntämyksen

mukaiseen muotoon)• Prosodia: painot, äänteiden kesto, f0:n generointi• Synteesi: puhesignaalin generointi edellä olevan avulla

• Eri synteesimenetelmiä:• Sääntöpohjainen synteesi (formanttisynteesi)• Konkatenatiivinen synteesi (difonisynteesi, unit selection –synteesi)• ’Tilastollinen parametrinen’ synteesi (HMM-pohjainen)• Artikulatorinen synteesi

Stephen Hawkins using TTS

Page 14: SGN-4010 PUHEENKÄSITTELYN MENETELMÄT Luento 1 18.1.2012

14

Name/Title of the presentation to be changed on the master page

Puhujantunnistus

5.12.2007

Page 15: SGN-4010 PUHEENKÄSITTELYN MENETELMÄT Luento 1 18.1.2012

15

Puheentunnistus

• Puheesta tekstiksi

• Pitkät perinteet mutta vieläkin osin ratkaisematon ongelma

• Perustuu todennäköisyyslaskentaan• Millä todennäköisyydella = “a”?• Myös kieli mallinnetaan tilastollisesti

• P(”melko todennäköinen lause”)?

• Nämä todennäköisyydet yhdistetään

• Käsitellään kursseilla SGN-4106 Speech Recognition ja

SGN-4507 Speech Recognition Laboratory

Page 16: SGN-4010 PUHEENKÄSITTELYN MENETELMÄT Luento 1 18.1.2012

16

Puheen tuottaminen ja sen mallintaminen

Quatieri: Discrete –Time Speech Signal Processing Principles and Practice

Page 17: SGN-4010 PUHEENKÄSITTELYN MENETELMÄT Luento 1 18.1.2012

17

Puheen tuottaminen ja sen mallintaminen

Quatieri: Discrete –Time Speech Signal Processing Principles and Practice

Page 18: SGN-4010 PUHEENKÄSITTELYN MENETELMÄT Luento 1 18.1.2012

Ikkunointi

• Puhetta käsitellään kehyksittäin (frame) eli ikkunoittain

• Toimii seuraavasti:

Page 19: SGN-4010 PUHEENKÄSITTELYN MENETELMÄT Luento 1 18.1.2012

Sovellus: puheen perustaajuuden muuttaminen

• Idea: muutetaan puhujan perustaajuutta

• Nk. PSOLA-algoritmi (pitch-synchronous overlap-add):• Etsitään puheen perustaajuus soinnillisista kohdista (ei helppoa)• Otetaan jaksoja hitaammin tai tiheämmin• Summataan jaksot

Page 20: SGN-4010 PUHEENKÄSITTELYN MENETELMÄT Luento 1 18.1.2012

PSOLA

Page 21: SGN-4010 PUHEENKÄSITTELYN MENETELMÄT Luento 1 18.1.2012

21

• Praat:• Boersma, Paul & Weenink, David (2008). Praat: doing phonetics by

computer (Version 5.0.42) [Computer program]. Retrieved November 26, 2008, from http://www.praat.org/

• Käytetään viikon 02/2009 harkoissa (siis 3. harkoissa)

• Suomenkielinen Praat-opas:• Mietta Lennes, Praat-opas 2004

http://www.helsinki.fi/puhetieteet/atk/praat/

Praat: doing phonetics by computer

Page 22: SGN-4010 PUHEENKÄSITTELYN MENETELMÄT Luento 1 18.1.2012

22

• MATLAB-oppaita:• http://www.helsinki.fi/~mjlaine/matlab/ (suomenkielinen)• http://www.helsinki.fi/~mjlaine/matlab/matlab-primer.html

• Praat:• http://www.praat.org/ (ohjelma)• http://www.helsinki.fi/puhetieteet/atk/praat/ (suomenkielinen opas)

• Fonetiikka:• Suomenkilinen fonetiikkasanasto:

http://www.opiskelijakirjasto.lib.helsinki.fi/fonterm/• IPA: http://www2.arts.gla.ac.uk/IPA/fullchart.html

Linkkejä