puheentutkimuksen resurssit suomessaettä ihminen voi välittää tietoa sisäisistä tarpeistaan ja...

89
P UHEENTUTKIMUKSEN RESURSSIT S UOMESSA

Upload: others

Post on 04-Feb-2020

3 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Puheentutkimuksen resurssit Suomessaettä ihminen voi välittää tietoa sisäisistä tarpeistaan ja ulkoisesta olemukses-taan organisoimalla liikkeeseen ilman molekyylejä keuhkojen

PUHEENTUTKIMUKSEN RESURSSIT

SUOMESSA

Page 2: Puheentutkimuksen resurssit Suomessaettä ihminen voi välittää tietoa sisäisistä tarpeistaan ja ulkoisesta olemukses-taan organisoimalla liikkeeseen ilman molekyylejä keuhkojen
Page 3: Puheentutkimuksen resurssit Suomessaettä ihminen voi välittää tietoa sisäisistä tarpeistaan ja ulkoisesta olemukses-taan organisoimalla liikkeeseen ilman molekyylejä keuhkojen

PUHEENTUTKIMUKSEN RESURSSIT

SUOMESSA

toimittaneetJuhaniToivanenja ManneMiettinen

CSC– TieteellinenlaskentaOy

Page 4: Puheentutkimuksen resurssit Suomessaettä ihminen voi välittää tietoa sisäisistä tarpeistaan ja ulkoisesta olemukses-taan organisoimalla liikkeeseen ilman molekyylejä keuhkojen

c�

CSC– TieteellinenlaskentaOy2001

ISBN 952-9821-76-X����������������� ������� ����������������������������� �

Page 5: Puheentutkimuksen resurssit Suomessaettä ihminen voi välittää tietoa sisäisistä tarpeistaan ja ulkoisesta olemukses-taan organisoimalla liikkeeseen ilman molekyylejä keuhkojen

PuheentutkimuksenresurssitSuomessa 5

Esipuhe

Ideatämänesiselvityksentekemiseenon lähtöisinopetusministeriönomista-mantieteentietotekniikankeskuksenCSC:nkielitieteenpalvelun johtoryh-mästä.Esiselvityson toteutettuopetusministeriöltäsaadun100000 markanmäärärahanturvin. Esiselvitykselleasetettiinkaksi tavoitetta:ensimmäinentavoiteoli kartoittaakattavastisuomenkielistäpuhettatutkivien tieteenalojennykytila ja tulevaisuudennäkymätSuomessa,toinentavoiteoli esittääkartoi-tuksenpohjaltajoukko toimenpiteitä,joilla puheentutkimuksenedellytyksiävoitaisiin parantaamaassamme.

Esiselvityshankealkoi marraskuussa2000.SyksynpohjatyökulminoituiHel-singin yliopistossa13. joulukuuta 2000 järjestettyynseminaariinPuheen-tutkimuksenresurssitSuomessa.Kyselylomakkeet lähetettiinhelmikuussa2001 44:äänpuheentutkimustaharjoittavaan tutkimuslaitokseenja yrityk-seen.Toukokuussa2001pyydettiin lisäksikuuttapuheentutkimukseneri alo-jen asiantuntijaakirjoittamaanasiantuntija-arvioalansanykytilasta,tulevai-suudennäkymistäja kehittämistarpeista.

Hankkeenohjausryhmänmuodostivat professoriMatti Karjalainen(Teknil-linen korkeakoulu), professoriKimmo Koskenniemi(Helsingin yliopisto),tutkimusjohtajaKari Laurila (Nokia ResearchCenter),erikoistutkijaMarja-LeenaSorjonen(Kotimaistenkielten tutkimuskeskus),kehittämispäällikköJuhaSylberg (Näkövammaistenkirjasto), tutkija Martti Vainio (Helsinginyliopisto) ja arkistonjohtajaLauri Vihonen(Yleisradio).Haluammetoimit-tajina kiittää ohjausryhmääkannustavastaohjauksesta.Lisäksi asiantuntija-arvioidenkirjoittajat Lauri Carlson,Matti Karjalainen,Matti Laine,Unto K.Laine, Mikko Sams,Kari Suomi ja Martti Vainio, kyselyynvastanneetpu-heentutkijatsekäeri tavoin omanpanoksensaraportinsyntyynantaneetToo-masAltosaar, RoopeHavu, Jyrki Hokkanenja Eija Koskenlinnaansaitsevatniin ikäänlämpimätkiitoksemme.

Kaikki raportinmahdollisetvirheet ja epätarkkuudetovat toimittajien vas-tuulla.

Espoossaja Oulussa13.8.2001

JuhaniToivanenja ManneMiettinen

Page 6: Puheentutkimuksen resurssit Suomessaettä ihminen voi välittää tietoa sisäisistä tarpeistaan ja ulkoisesta olemukses-taan organisoimalla liikkeeseen ilman molekyylejä keuhkojen

6 PuheentutkimuksenresurssitSuomessa

Tiivistelmä

Puhettatutkitaaneri puolellaSuomeapienissämuutamanhengentutkimus-ryhmissä.Yhteiskunnanmuutosja teknologisoituminenovatluoneetpuheen-tutkimukselleuusiatehtäviä,joihin vanhatrakenteeteivätpystyvastaamaan.Puheentutkimusyksiköidenmaantieteellinenja tieteenalakohtaineneristynei-syyssekäyksiköidenpienikoko haittaavatmerkittävästipuheentutkimuksenedistymistäSuomessa.

Tutkimuksenrahoittajatvoisivat parantaapuheentutkimuksenedellytyksiäSuomessatukemalla:

! vähintäänyhdenyli 20 tutkijan kokoisenyksikön syntymistä,jonkatutkimuksellaonselväpainopistealue

! tutkimushankkeita,joissaluodaansiltojaeri puheentutkimuksenaluei-den, erityisestihumanistisenpuheentutkimuksenja puheteknologiantutkijoidenvälille

! puheentutkimukseneri alueidenverkostoitumista

! tutkimusaineistojenkokoamistaja käyttöäkoskevien yhteistenstan-dardienja pelisääntöjenlaatimista

! olemassaolevientutkimusaineistojenkäytönkoordinointia

! pitkänaikavälin monitieteistäperustutkimustapuhutunkielenolemuk-senselvittämiseksi

! perus-ja jatkokoulutuksenuudelleenorganisointiamonitieteiseensuun-taan

Page 7: Puheentutkimuksen resurssit Suomessaettä ihminen voi välittää tietoa sisäisistä tarpeistaan ja ulkoisesta olemukses-taan organisoimalla liikkeeseen ilman molekyylejä keuhkojen

PuheentutkimuksenresurssitSuomessa 7

English summar y

Speechandspokenlanguageis studiedby anumberof smallresearchgroupsscatteredaroundFinland.Thefastpaceof globalisationandinformationtech-nologyhave creatednew demandsfor speechresearch,thatarenot suppor-ted by the existing organisationalstructures.Especiallythe small size andgeographicaldispersionof the researchunits createseriousbarriersfor theadvancementof speechresearchin Finland.

Theresearchfundingandpolicy shouldbedirectedsothat:

! at leastonelargerandfocusedresearchunit with over 20 researcherswill becreated

! new multidisciplinaryresearchprogramsarelaunchedto bring toget-her thedifferenttraditionsof humanisticandtechnologicalspeechre-search.

! commonstandardsandrecommendationsarecreatedfor thecompila-tion anduseof speechdatabases

! useof existing resourcesis bettercoordinated

! therewill be long-termmultidisciplinarybasicresearchto understandtheessenceof spokenlanguage

! educationis reorganizedin a moremultidisciplinaryway

Page 8: Puheentutkimuksen resurssit Suomessaettä ihminen voi välittää tietoa sisäisistä tarpeistaan ja ulkoisesta olemukses-taan organisoimalla liikkeeseen ilman molekyylejä keuhkojen

8 PuheentutkimuksenresurssitSuomessa

Sisältö

Esipuhe 5

Tiivistelmä 6

English summar y 7

1 Johdanto 91.1 PuheentutkimuksenmerkitysSuomelle. . . . . . . . . . 91.2 Raportintarkoitusja rakenne . . . . . . . . . . . . . . . 10

2 Monim uotoinen puhe 122.1 Fysikaalinenpuhe . . . . . . . . . . . . . . . . . . . . . 122.2 Sosiaalinenpuhe . . . . . . . . . . . . . . . . . . . . . 14

3 Asiantuntija-ar vioiden tiivistelmä 163.1 Tutkimuksennykytila . . . . . . . . . . . . . . . . . . . 163.2 Tulevaisuudennäkymät . . . . . . . . . . . . . . . . . . 173.3 Puhetietokannat. . . . . . . . . . . . . . . . . . . . . . 17

4 Vastausten analyysi 184.1 Yhteenveto . . . . . . . . . . . . . . . . . . . . . . . . 184.2 Puheentuottamisenja havaitsemisenperustutkimus. . . 194.3 Puheteknologiantutkimus. . . . . . . . . . . . . . . . . 204.4 Puhekielenja kielellisenvariaationtutkimus . . . . . . . 214.5 Dialogin ja kielellisenvuorovaikutuksentutkimus . . . . 224.6 Kaupallinenpuheteknologiantutkimus . . . . . . . . . . 23

5 Toimenpide-ehdotukset 24

Page 9: Puheentutkimuksen resurssit Suomessaettä ihminen voi välittää tietoa sisäisistä tarpeistaan ja ulkoisesta olemukses-taan organisoimalla liikkeeseen ilman molekyylejä keuhkojen

Sisältö 9

Liitteet 25

A Asiantuntija-ar viot 26

B Vastaukset 40B.1 Akustiikanja äänenkäsittelytekniikanlaboratorio(TKK) 40B.2 Digitaali- ja tietokonetekniikanlaitos(TTKK) . . . . . . 43B.3 Digitaalisenmedianinstituutti (TTKK) . . . . . . . . . . 45B.4 Elisantutkimuskeskus. . . . . . . . . . . . . . . . . . . 47B.5 Fonetiikanlaitos(HY) . . . . . . . . . . . . . . . . . . . 48B.6 Fonetiikka(TUY) . . . . . . . . . . . . . . . . . . . . . 51B.7 Institutionaalisenvuorovaikutuksentutkimusyksikkö . . 53B.8 Kognitiivisentieteenja teknologiantutkimusryhmä(TKK) 54B.9 Kotimaistenkieltentutkimuskeskus. . . . . . . . . . . . 56B.10 Lingsoft Oy . . . . . . . . . . . . . . . . . . . . . . . . 58B.11 MediaTeam(OY) . . . . . . . . . . . . . . . . . . . . . 59B.12 Neuroverkkojentutkimusyksikkö(TKK) . . . . . . . . . 61B.13 Nokiantutkimuskeskus . . . . . . . . . . . . . . . . . . 62B.14 Näkövammaistenkeskusliitto . . . . . . . . . . . . . . . 63B.15 Puheopinlaitos(TAY) . . . . . . . . . . . . . . . . . . . 64B.16 Suomenkielenlaitos(HY) . . . . . . . . . . . . . . . . 69B.17 Suomenkielenlaitos(JYU) . . . . . . . . . . . . . . . . 71B.18 Suomalaisenja yleisenkielitieteenlaitos(TUY) . . . . . 73B.19 Suomenkielenja kulttuuritieteidenlaitos(JOY) . . . . . 75B.20 Suomenkielenja yleisenkielitieteenlaitos(TAY) . . . . 76B.21 Suomenkielenjaos(OY) . . . . . . . . . . . . . . . . . 78B.22 TAUCHI-tutkimusryhmä(TAY) . . . . . . . . . . . . . . 80B.23 TimehouseOy . . . . . . . . . . . . . . . . . . . . . . . 83B.24 Vieraidenkieltenlaitos(JOY) . . . . . . . . . . . . . . . 84

Page 10: Puheentutkimuksen resurssit Suomessaettä ihminen voi välittää tietoa sisäisistä tarpeistaan ja ulkoisesta olemukses-taan organisoimalla liikkeeseen ilman molekyylejä keuhkojen

10 PuheentutkimuksenresurssitSuomessa

1 Johdanto

1.1 Puheentutkim uksen merkitys Suomelle

Globalisaatioyhdessätieto- ja viestintäteknologiankanssamuodostavat en-nennäkemättömänsuurenuhansuomenja muidenkotimaistenkielten ase-malle.Automaattiseenpuheentunnistukseenja puhesynteesiin(eli puhetek-nologiaan)perustuvat sovelluksetja palvelut yleistynevät lähivuosinaosaksiihmistenarkipäivää.Pientenkielten asemaon vaarassaheikentyäellei nii-denavulla voi käyttäämyösuusiapuheteknologiaanperustuviasovelluksiaja palveluita.

Kansainvälisetsuuryritykseteivät juurikaanhuolehdipientenkielten sovel-luksista,sillä niidenkeskinäisessäkilpailussaja markkinoidenturvaamisessaavainasemassaovat suuretja vauraatkielialueet, joiden puhujamäärätlas-ketaankymmenissämiljoonissa.Microsoftin kaltaisetjättiläisyrityksetovatporrastaneeteri kielille annettavan tuen tärkeysjärjestykseenmarkkinoidenkoon mukaan.Suomenkieli ei tällä listalla yllä kovinkaankorkealle sijal-le. Tuki pienille kielille voi kokonaanjäädätoteutumattatai aikataulutetaanhuomattavasti englanninkieltä myöhemmäksi.Kansainvälisetsuuryritykseteivätvälttämättäasetasamojavaatimuksiapientenkieltentuenlaadullekuinvaltakielille.Monetsuomalaisetovat jo nyt sopeutuneetkäyttämääntietoko-neohjelmienenglanninkielisiäversiota.Saako suomalainenpuheteknologiansovelluksenkäyttäjälähitulevaisuudessaasiansaparemminhoidetuksipuhu-malla huonoaenglantiakuin äidinkieltään?Tällainenkehitys uhkaisi koti-maistenkielten asemaaja johtaisi vanhempienja vähemmänkoulutettujenihmistensyrjäytymiseen.

Kotimaisten kielten puheteknologian saatavuuden takaaminen on siis tär-keä kansallinen tehtävä . Tavoitettaei kuitenkaansaavutetayksinkertaisestieikälyhytjänteisesti.Tehtävänvaativuusjohtuuennenkaikkeasiitä,ettäpu-he on erittäin monimutkainenja vaikea tutkimuskohde.Seuraavat tosiasiatsaattavatyllättäämaallikon:

! Puheon ääntä,muttaäänenfysikaalisistaominaisuuksistaei edespe-rinpohjaisillalaskennallisillamenetelmilläolenykyäänmahdollistatar-kastipäätellä,mitääänteitäsignaalissamissäkinkohdassaon.

! Ihminenvoi kokeaerilaisetfysikaalisetäänetsamaksiäänteeksi– ja

Page 11: Puheentutkimuksen resurssit Suomessaettä ihminen voi välittää tietoa sisäisistä tarpeistaan ja ulkoisesta olemukses-taan organisoimalla liikkeeseen ilman molekyylejä keuhkojen

1. Johdanto 11

toisaaltasamafysikaalinenäänivoidaankokeaeri äänteiksi,jos sesi-joitetaankeinotekoisestiosaksierilaisiasanoja.

! Eri puhujientuottamatpuheäänetovat keskenäänerilaisiakutenmyössamankinpuhujaneri kerroilla tai eri sanojenosinatuottamatäänteet.

! Puhuttukieli eroaarakenteeltaanmerkittävästinormitetustakirjakie-lestä,erityisestilauserakenteenosalta.

Kotimaisten kielten puheteknologian saatavuus on tur vattava parantamal-la puheentutkim uksen edell ytyksiä sekä lyhyellä että pitkällä tähtäyksellä .Lyhyellätähtäykselläon tuettava vähintäänyhdensuuremmanpuheteknolo-giaankeskittyväntutkimusyksikönsyntymistä.Lisäksi tutkimusyksiköidenverkostoitumistaon tuettava yhteisillä tutkimushankkeilla ja koordinoimallatutkimusaineistojenkäyttöä.Pitemmällätähtäyksellätarvitaanpaljonlaajem-paaja pitkäjänteisempääperustutkimustapuhutunkielenolemuksenselvittä-miseksija kuvaamiseksi,jossaotetaanhuomioonhavainnotpuhutunkielenfysikaalisista,neuraalisista,kognitiivisista ja sosiaalisistapiirteistä.Pitem-mälläaikavälillä myöspuheentutkimukseenliittyvä opetusja tutkijakoulutusonorganisoitavauudelleen.

Maammeei voi heittäytyäpassiiviseksimuuallatehtäväntutkimuksenseu-raajaksi,vaanuusiainnovaatioitapitäisivoidaripeästisoveltaaomiin kieliin,silloinkin kunmenetelmätovatmuuallakeksittyjä.Maallammeontoki myösedellytyksiäviedätutkimustajoillakin sektoreillaeteenpäinkansainvälisesti-kin merkittävällätavalla.

Tämäkansallisenkulttuurin ja omintakeisuudenturvaamiseksikäynnistet-tävätoiminta loisi pohjaamyöskotimaisellepuheteknologiaanpanostavalleteollisuudelle,jokasaattaisihyvinkin noustamaallemmemerkittäväksivien-tialaksi.

1.2 Rapor tin tark oitus ja rakenne

Tällä raportillaonkaksitavoitetta:

! Kartoittaapuheentutkimuksennykytila ja kehittämistarpeetSuomessaerityisestitutkimusaineistojenosalta.

! Ehdottaatutkimusrahoittajilletoimenpiteitä,joilla puheentutkimuksenedellytyksiävoitaisiin parantaaSuomessa.

Raporttipyrkii kokoamaanyhteentietoajostaolisi hyötyäsekätutkijayhtei-sölleitselleenettätiedepolitiikanja tutkimusrahoituksenpäättäjille.Raportinnäkökulmaon painottunutniille puheentutkimuksenaloille, joissatietokan-noilla ja laskennallisillamenetelmilläon keskeinenasema.Painotusjohtuuesiselvityksenalullepanijan,CSC – TieteellinenlaskentaOy:n, toimenku-vastatukeaja edistäälaskennallistatiedettäSuomessa.

Page 12: Puheentutkimuksen resurssit Suomessaettä ihminen voi välittää tietoa sisäisistä tarpeistaan ja ulkoisesta olemukses-taan organisoimalla liikkeeseen ilman molekyylejä keuhkojen

12 PuheentutkimuksenresurssitSuomessa

Raporttirakentuusiten,ettäluvun 2 tarkoituson perehdyttäälukija pääpiir-teissäänpuhutunkielenominaispiirteisiinsekäfysikaalisestaettäsosiaalises-tanäkökulmasta.Luvussa3 ja4esitetääntoimittajientiivistämässämuodossaasiantuntija-arvioidenja kyselyjentulokset.Viimeisessäluvussa5 esitetäänraportintoimittajien ja ohjausryhmänlaatimattoimenpide-ehdotukset.Liit-teisiinA ja B onkoottuasiantuntija-arviotja vastauksetkokonaisuudessaan.

Page 13: Puheentutkimuksen resurssit Suomessaettä ihminen voi välittää tietoa sisäisistä tarpeistaan ja ulkoisesta olemukses-taan organisoimalla liikkeeseen ilman molekyylejä keuhkojen

2. Monimuotoinenpuhe 13

2 Monim uotoinen puhe

2.1 Fysikaalinen puhe

Puheei koostu toisiaanseuraavista helposti erotettavista yksiköistäkutenäänteistäja sanoista,vaanmonistatoisiinsahierarkisessasuhteessaolevis-ta tekijöistä.Puhetuotetaanerilaisinääntöelintenelein,jotka ovat ajallisestisekätoisiaanseuraavia ettäsamanaikaisia.Puheonjatkuvaafysiologisentoi-minnanaiheuttamaavirtaa,jonkayksiköt muodostuvat vastaaivoissamoni-mutkaistenkognitiivistenprosessienseurauksena.Kognitiivistenprosessiennäkymättömyysja näennäinenhelppousaiheuttaasen,ettäpuhettapidetäänjollakin tapaaitsestäänselvänäja helpostiohitettavanailmiönä.Seuraavansi-vunkuvahavainnollistaamitenvaikeastikielellisetyksikötovathavaittavissaäänisignaalista.

Puheentutkijoitalukuunottamattamonikaanei tule problematisoineeksisitä,ettäihminenvoi välittäätietoasisäisistätarpeistaanja ulkoisestaolemukses-taanorganisoimallaliikk eeseenilmanmolekyylejäkeuhkojenja suunavulla.Puheon monientapahtumienkoostamahierarkinenrakenne,joka tuotetaansuurellamäärälläerilaisiaajassatoisiaanseuraavilla ja toisaaltasamanaikai-silla eleillä. Tämärakenneon ainajonkinlaisessasuhteessakielelliseenra-kenteeseenja sisältöön,muttapuheja sensisältämäkielellinen viesti eivätkuitenkaanole yksi ja sama;puhesisältääyleensäpaljon lingvistisenkoo-din ulkopuolellejäävääinformaatiotamm. puhujanasenteista,tunnetiloistaja vaikkapaiästä,sukupuolestatai terveydentilasta.

Puhetapahtumassavoidaanyksinkertaistetustierottaaviisi erilaistavaihetta:puhujantarkoitus tai intentio, neuraalinenja fysiologinentoiminta puheentuottamisessa,ääniaalto,neuraalinenja fysiologinentoimintapuhetuotoksenvastaanottamisessasekäsanomanymmärtäminen.Toisaaltavoidaanpuhuasanomankielentämisestäja sanomantulkinnasta.Huomionarvoistaon, ettävain artikulaatioja senaikaansaamaääniaaltoeli puheenartikulatorisetjaakustisetaspektitovatpuheketjunhelpostihavainnoitavia osia.

Aivojentoimintapuheentuottamisessaja ymmärtämisessäon ollut metodo-logisestivaikeampitutkimuskohdekuin puheketjunartikulatorinenja akusti-nenvaihe.Jokatapauksessaonselvää,ettäakustisensignaalintulkitseminenonhyvin monimutkainenkognitiivinenprosessi,jossaonsekäkielellisiäettäkulttuurisidonnaisiaulottuvuuksia.

Puheenhavaitsemiseenliittyy ns. invarianssiongelma:puhe on akustisesti

Page 14: Puheentutkimuksen resurssit Suomessaettä ihminen voi välittää tietoa sisäisistä tarpeistaan ja ulkoisesta olemukses-taan organisoimalla liikkeeseen ilman molekyylejä keuhkojen

14 PuheentutkimuksenresurssitSuomessa

Kuva2.1:Spektrogrammi,aaltomuotoja transkriptiolauseesta»tarkkakirur-gi varoonäköään».Sanat,äänteetja äänteidenkestoteivät erotusignaalistaselkeinäyksiköinä,esim.tarkka-sananpitkä [k] on samanpituinenkirurgi-sananensimmäisen[k]:n kanssaja toisaaltaensimmäinen[a] sanassatarkkaon toistayli kaksikertaapidempi.

Page 15: Puheentutkimuksen resurssit Suomessaettä ihminen voi välittää tietoa sisäisistä tarpeistaan ja ulkoisesta olemukses-taan organisoimalla liikkeeseen ilman molekyylejä keuhkojen

2. Monimuotoinenpuhe 15

täynnävaihteluaja kielellisetyksiköt ovat useinfoneettisestihyvinkin puut-teellisestituotettuja.Silti kuulijat yleensätunnistavat erilaisetvariantit sa-maksi yksiköksi. Ilmeisestikuulija pystyy normalisoimaanpuhujanäänen,eli poistamaanäänenhavaitsemisprosessistavain puhujastaaiheutuvat omi-naisuudet.Toisaaltakontekstionainamukanapuheenhavaitsemisessa:ihmi-nenvoi aistiatietyn äänteen,vaikka sitä ei objektiivisestivoida havaitapu-hesignaalista.Kontekstinja normalisaationvaikutuspuheenhavaitsemisessaon hyvin monimutkainenkokonaisuus,ja on ilmeistä,ettäkoneeteivät vieläpitkäänaikaankykenehavaitsemaanja tunnistamaanpuhettaihmisentavoin.

2.2 Sosiaalinen puhe

Puhutunkielenomin esiintymäympäristöon kahdentai useammanhenkilönvälinenkeskustelu.Puhettaei voi viime kädessätulkita ymmärtämättäsenluonnettatoimintanaja erityisestiyhteistoimintana– niitä kulttuurisiaja so-siaalisiaehtoja(mukaanlukien institutionaalisetehdot),jotka ohjaavat tul-kintaavähintäänyhtäsuuressamäärinkuin aikasidonnaisuusja prosodiakin.Tästäsyystäpuheentutkiminenei voi pysähtyävain äänisignaalintai perät-täistensanojenyhteismerkityksentutkimiseen.

Puheenavulla kieliyhteisönjäsenettekevät ymmärrettäväksitarkoitusperi-ääntoisilleenja tulkitsevat toisiaan– hoitavat erilaisiaarjentehtäviäja toi-mintoja.Puheelääpuheenvuoroistakoostuvinakielellisinä tekoina ja niistäkoostuvinalaajempinatoimintakokonaisuuksina.Puheenolennainenosaonprosodia,ilman sitäpuhettaei ole.Kasvokkaisviestintäänkuuluuerottamat-tomastimyöspuheenja erilaisenei-kielellisenmerkityksenannonyhteispeli:puheensuhdekatseeseen,eleisiin,ilmeisiin, nauruunja hymyyn.Seuraavas-saon kaksi katkelmaaKelassatapahtuvan asumistukeakoskevan asioinninalusta:

Katkelma1."$#�%�&('()�%�*�%,+,)�- .0/21�34&�5�3�67 8 ":9<;0= 8�8>4? %0)�'�) ? % ? 1�@�@01�@�@0=�=A >4? %,)�'() ? - B0*�%�'�CD%�E0)�FG1,/ ? 1�) 8 ":9H;0=I) ? @�J�% ? 1�@03 ? 1�)K9LF�/4&MJ�)�)�*,% ? 1�)�9ONP N�1KQH@,*�%�FI'�R ? R�S�R�FT9U #�%�&('()�%�*�%,+,)�- Q V�/�/�W(/�X�SY 8[Z 9\,=;$#�%�&('()�%�*�%,+,)�- ]�%,3�^ 8�Z 9H;0=_J�%�'(C ?I? @,*G/�F_1�%�*,)�F,F03_1�C�*�*0C`E�3�1�'�3�*,*,C 8[Z 9H;�=\ 1,/�%�J�3�3�F01�@,*0/�1�%,*,)�F�F03K6

Katkelma2."$#�%�&('()�%�*�%,+,)�- .0/aF,%�%�FIE03�%K67 >4? %,)�'() ? - b,3�%:6c1�@�/�1�)D*,) ? '�3�1�1�3�'(/_10R�d2)4&�5�%0/�%(5�)�W 8[Z 9 Y =A ) ? @(J�% ? 1�@�'0%K9P 8 ":9 Z =U #�%�&('()�%�*�%,+,)�- >4? @(J�% ? 1�@�3 ? 1�)�6ONY >4? %,)�'() ? - N�.�%,%I3,1 ? )�% ?I? 3,J�J�/ ? 3�Fe)4&�5�%0/�Fe3�1�1,C 8[Z 9 U =GJ�%�'(C ? 3; 1�@TQ<*,3�3 ? %,1�1,3G/�*,3,J�)�S,)�F:6\f#�%�&('()�%�*�%,+,)�- Q V�/,/�W(/g6<Sh #�%�&('()�%�*�%,+,)�- i(R�*:-<*,C�E0C�FjJ�3�%�*�*0CG/�F:6" Z 8[Z 9\,=

Page 16: Puheentutkimuksen resurssit Suomessaettä ihminen voi välittää tietoa sisäisistä tarpeistaan ja ulkoisesta olemukses-taan organisoimalla liikkeeseen ilman molekyylejä keuhkojen

16 PuheentutkimuksenresurssitSuomessa

"�"f#�%�&('�)�%,*�%,+�)�- k�%�F�'�C ? *,)�%�F�3�F:-�-l) ? @�F�1,/,^ 8[Z 9<;0=_J�%�F�'�C ? *,)�% ? 1�)" 7 ) ? @�J�% ? 1�@�'�'(3�3�6mN�J�%�'�C ? @�FeJg-�-,6

Puhetulkitaansuhteessasekäkielelliseenettäei-kielelliseenesiintymäkon-tekstiinsa.Puheenvuoro (ja sensisältämätkielelliset ainekset)tuotetaanai-na tietyssäkontekstissa,ja se ymmärretäänpuhekumppaninedellisenpu-heenvuoron ja yhteisenlaajemmanmeneilläänolevan toimintakokonaisuu-den luomaataustaavasten.Niinpä katkelman1 virkailija ilmaiseerivin 5vuorollaan»Joo-o?»ymmärtäneensäasiakkaanasianennenkuin tämäonpäässytkäynninsyynkertomisensaloppuun,kun taaskatkelmassa2 rivin 4hiljaisuusja virkailijan rivillä 5 esittämätoistoilmaisevatasiakkaankäynninsyynolevanvirkailijalle vielä epäselvä.

Vuorovaikutuksenrakentumisenja etenemisenperuspilareitaovat vuorotte-lu eli puheenvuorojensiirtyminen puhujaltatoiselle, puheenjäsentyminenpuheenvuoroalaajemmiksikokonaisuuksiksi(sekvensseiksi)ja keinot,joillapuhujaja vastaanottajakäsittelevätpuheentuottamisessa,vastaanottamisessaja ymmärtämisessäesiintyviäongelmia.Vuorotteluaanalysoitaessakiinnite-täänhuomiotapoihin,joilla puheenvuorot vaihtuvat puhujaltatoiselle:mil-loin ja mitenvaikkapapalvelupuhelimeensoittavaasiakasonosoittanutsoit-tonsasyynpäättyneeksi;vastaako lääkärinvastaanotollaoleva potilaslääkä-rin kysymykseenhetivai esimerkiksivastamahdollistaongelmaailmaisevanhiljaisuudenjälkeen.

Monienpuhutunkielenrakennepiirteidenvoi nähdämuotoutuneennimeno-maanihmistenvälistäsosiaalistavuorovaikutustapalvelemaan.Niinpä esi-merkiksierilaisinavastauksinatoimivilla puheenvuoroillaonuseinomanlai-sensa,ei-lausemainenrakenne.Toisaaltapuheenajassaetenevä, tietylle vas-taanottajallemuotoiltu luonnenäkyy esimerkiksierilaisinasyntaktisenra-kenteenkorjaus-,täydennys-,toisto-ja limittymisilmiöinä, joilla voidaanha-keavastaanottajaltatietynlaistareaktiotatai estääkumppaniaottamastapu-heenvuoroajossakintietyssäkohdin.Erilaisetlauseytimenulkopuolellejää-vät partikkelit puolestaanovat keskeisiäpuheenvuorontoimintaluonteenil-maisemisessa.Erirakenteistenkieltenkäyttämienvuorovaikutuskeinojenero-jen ja yhtäläisyyksienselvittäminenon parhaillaanyksi puhutunkielen tut-kimuksenkeskeisalueita.

Page 17: Puheentutkimuksen resurssit Suomessaettä ihminen voi välittää tietoa sisäisistä tarpeistaan ja ulkoisesta olemukses-taan organisoimalla liikkeeseen ilman molekyylejä keuhkojen

3. Asiantuntija-arvioidentiivistelmä 17

3 Asiantuntija-ar vioidentiivistelmä

Varsinaisenkyselynohellapyydettiin kuudeltapuheentutkimukseneri alanasiantuntijaltalyhyitä asiantuntija-arvioitatutkimusalansanykytilasta,tule-vaisuudennäkymistäja kehittämistarpeista.Arvioita pyydettiin neurotieteel-lisen puheentutkimuksen(Mikk o Sams ja Matti Laine), dialogin ja vuo-rovaikutuksentutkimuksen(Lauri Carlson), fonetiikantutkimuksen(KariSuomi), puheentunnistuksentutkimuksen(Unto K. Laine), puhesynteesintutkimuksen(Martti Vainio) ja puhetietokantojenkehitystyön(Matti Kar -jalainen) alalta.Asiantuntija-arviotkokonaisuudessaanlöytyvät tämänra-portin liitteestäA. Alla on toimittajientekemäyhteenvetoarvioista.

3.1 Tutkim uksen nykytila

Perustutkimuksentuomatietämyspuheenluonteestaja inhimillisestäkom-munikaatiostaonmoniltaosinriittämätöntä.Ääntöelimistöneri osientoimin-taperiaatteetja osuuspuheentuottamisessatunnetaanpääpiirteissään,muttamonetyksityiskohdatja osientoimintakokonaisuutenatunnetaanvieläpuut-teellisesti.

Yksi suurimmistamysteereistäon miten ihmisaivot pystyvät tunnistamaanpuhettaniin nopeastija vaivattomasti.Moderneillaaivojenkuvantamismene-telmillä on saatutärkeitä alustavia tuloksiasiitä miten ihmisaivot käsittele-vätkieltä.Aivotutkimuksenresurssitja metodivalikoimaovatSuomessaerin-omaisellatasolla,muttametodiikanlisäksitarvitaanvälttämättälisääteoreet-tista työtäaiempaaosuvimpientutkimuskysymystenja -asetelmienmuotoi-lemiseksi.

Puheteknologiantutkimuson tällä hetkellä keskittynyt lyhyen aikavälin ta-voitetutkimukseenja tunnettujenmenetelmiensoveltamiseen.Pienensanas-tonpuhujastariippumattomatpuheentunnistimetovat jo kaupallisellaasteel-la. Pisimmälläollaanenglanninkielenpuheentunnistuksessa.Suurensanas-tonpuhujastariippumatontunnistusonkuitenkinedelleenkaukainentavoite.Puhesynteesionmyöskehittynyt hyödyllistensovellustenasteelle.Luonnol-lisenkuuloistasynteettistäpuhettatuottavaunit-selection-synteesimenetelmäei kuitenkaanolekovin joustava.

Viime aikoinapuheteknologiantutkijat ovatalkaneetyhäenenevässämäärin

Page 18: Puheentutkimuksen resurssit Suomessaettä ihminen voi välittää tietoa sisäisistä tarpeistaan ja ulkoisesta olemukses-taan organisoimalla liikkeeseen ilman molekyylejä keuhkojen

18 PuheentutkimuksenresurssitSuomessa

kiinnostualuonnollisestakeskustelusta,eleidenja prosodiansekävisuaaliseninformaationmerkityksestäpuheessa.Tätäkauttapuheteknologiantutkimuson lähentymässähumanistis-yhteiskuntatieteellisenpuheentutkimusta,jon-ka piirissäon tutkittu empiirisestiluonnollistakeskustelua1970-luvultaläh-tien.Luonnollisenkeskusteluntutkimusaineistojenkeruuonerittäintyölästäja vaikeaa,jotenlaajojatai kvantitatiivisia tuloksiaei olevielä esitetty.

3.2 Tulevaisuudennäkymät

Puheteknologianalalla tullaanlähivuosinanäkemääntodennäköisestiasteit-taistalaadunparanemista,muttamerkittäviäharppauksiaei ole näköpiiris-sä.Lähitulevaisuudenuudetperustutkimuksellisettuloksetliittynevätpuheenprosessoinninpsykologistenmallientarkentumiseensekävanhojenpsykolo-gistenja lingvististenperusolettamustenja teorioidenuudelleenarviointiin.Merkittäviäinnovaatioitaei voi syntyäilmanmittavaapanostustamonitietei-seenperustutkimukseen,jossayhdistetäänkielitieteen,foneetiikan,psyko-logian, neurologian,matemaattisenmallintamisenja aivokuvannuksenosa-alueidenasiantuntemus.

3.3 Puhetietokannat

Puhetietokannoistaon tullut yhäolennaisempiapuvälineniin puheenperus-tutkimuksellekuin puheteknologiankehitystyöllekin.Tutkimusrahoituksenjärjestäminenpuhetietokantojenkehitystyöhönon kuitenkin vaikeaa,koskarahoittajatovat haluttomiamaksamaantutkimuksenapuvälineistäja infra-struktuurista.Puhetietokantojenkehitystyöonuseinhidasta,työlästäja tark-kuuttavaativaa.

Tulevaisuudessaolisi toivottavaapäästäeroonnykyistenpuhetietokantojenkäyttöähaittaavastayhteensopimattomientallenne-ja esitysformaattienkir-jostaja siirtyäyhtenäiseen,mielelläänkansainväliseenstandardiin.Tietokan-tojen käsittelyävartentarvitaanmyöshelppokäyttöisempiäpuhetietokanta-järjestelmiä,joilla voisi käsitellämyösaudiovisuaalistamateriaalia.

Korkealuokkaistasuomenkielistämateriaaliaon puhetietokannoissatoistai-seksiliian vähän.Suomenkielisenpuhetietokannankehittäminenon tärkeääsekäkulttuurisistaettäteknisistäsyistä,vaikkasuomion tieteenja teknolo-gianmaailmassamarginaalinentekijä.

Page 19: Puheentutkimuksen resurssit Suomessaettä ihminen voi välittää tietoa sisäisistä tarpeistaan ja ulkoisesta olemukses-taan organisoimalla liikkeeseen ilman molekyylejä keuhkojen

4. Vastaustenanalyysi 19

4 Vastausten analyysi

Esiselvitystävartenlaadittiin kyselylomake, joka lähetettiin44:äänpuhettatutkivaantutkimusyksikköönja yritykseen.Vastauksiapalautettiinyhteensä24, joista 19 edustierilaisiayliopistollisia tutkimusyksikköjäja 4 yrityksiä.Lisäksi kyselyynvastasiNäkövammaistenkeskusliitto,jonka mittava ääni-kirjasto on merkittäväpotentiaalinenpuheentutkimuksentutkimusaineisto.Kyselynkohderyhmäoli pieni ja saadutvastauksetnoudattavat kysymyslo-makettavapaamuotoisesti,joten vastauksetesitetäänalla toimittajien tiivis-tämänä.Täydellisetvastauksetlöytyvät liitteestäB.

4.1 Yhteenveto

Puhettatutkitaan Suomessapienissämuutamanhengentutkimusryhmissäeri puolilla maata.Yliopistojentulosohjausja ulkopuolisenrahoituksenkas-vu näkyy erityisen selvästiperustutkimuksenvirkojen lakkauttamisenajapuheteknologiantavoitetutkimuksenlisääntymisenä.Puheteknologiantutki-musperustuulähestäysinulkopuoliseenrahoitukseen.Yksiköt ovat verkot-tuneetmelko heikosti keskenään.Aivanviime vuosinapuheteknologiantut-kijat ovat alkaneetverkottuaTekesinUSIX-teknologiaohjelmanja kielitek-nologianopetusverkoston1 myötä.Kieliteknologianopetusverkosto tarjoaamyösmonipuolistaopetustapuheteknologianalalla.Humanistis-yhteiskun-tatieteellinenpuheentutkimuson verkostoitunutkeskustelunanalyysinja so-siolingvistiikan ympärille. Puheteknologiantutkimus ja humanistis-yhteis-kuntatieteellinenpuheentutkimuseivät ole toistaiseksiverkottuneetkeske-nään.

Kyselyynvastanneidentutkimusyksiköidenkäytössäolevat tutkimusaineis-tot ovat hyvin erilaisia ja niiden yhteiskäyttöei useinkaanole mahdollis-ta. Tutkimusaineistojenyhteiskäyttöärajoittavat yhtäältätutkimustavoittei-denerilaisuus,toisaaltaaineistojenkäyttöönliittyvät teknisetja juridiseton-gelmat.Teknisiä ja juridisia ongelmiapitäisi kiireellisesti ryhtyä ratkaise-maanyhteistenstandardienja suositustenavulla. Pitemmälläaikavälillä onodotettavissaettäeri tutkimustraditiotlähenevät toisiaan,erityisestiluonnol-lisen keskusteluntutkimuksessa,jolloin tutkimustavoitteidenerilaisuudestajohtuvatongelmattulevatvähenemään.

1 E�1�1�n:-mo,o�p�p�pq9*�%�F0r�9<E�3�* ? %�F�'�%K9ts�%�o�'0%�3�*�%01,3�',F�/�*0/�r,%,)�o,5�3�&('u/ ? 10/

Page 20: Puheentutkimuksen resurssit Suomessaettä ihminen voi välittää tietoa sisäisistä tarpeistaan ja ulkoisesta olemukses-taan organisoimalla liikkeeseen ilman molekyylejä keuhkojen

20 PuheentutkimuksenresurssitSuomessa

Kyselynvastauksetonluokiteltuallatutkimusalueittainviiteenryhmään:pu-heentuottamisenja havaitsemisenperustutkimukseen,puheteknologiantut-kimukseen,kielellisenvuorovaikutuksenja puhekielentutkimukseen,dialo-gin ja vuorovaikutuksentutkimukseensekäkaupallisenpuheteknologiantut-kimukseen.On selvää,ettäluokittelu ei ole ainoamahdollinenja ettäkaik-ki tutkimusyksikötja tutkimusaiheeteivät sovi yksiselitteisestiminkäänyh-denkategorianalle.Luokituksenainoatarkoitusonkinhelpottaalukijaahah-mottamaanparemminsuomalaisenpuheentutkimuksenkenttäkokonaisuu-dessaan.

4.2 Puheen tuottamisen ja havaitsemisen perustutkim us

Puheentuottamisenja havaitsemisenperustutkimuksellatarkoitetaantutki-musta,jonka tavoitteenaon löytää ja selittääuusiatosiasioitapuheenbio-logisesta,neuraalisesta,akustisestaja auditiivisestaperustasta.Tutkimusonluontaisestimonitieteistäja läheisessäsuhteessasoveltavaankliiniseenja pu-heteknologiseentutkimukseen.

Kyselyynvastanneistaperustutkimustaedustavat Helsinginyliopiston fone-tiikan laitoksella tehtävävokaalitutkimus,prosodiantutkimus sekälapsenäänteellisenkehityksentutkimus(ks.48), Turunyliopistonfonetiikanoppia-neentekemävokaalijärjestelmienvertaileva tutkimusja foneettistenproses-sienbiologisenperustantutkimus(ks. 51), Teknillisenkorkeakoulunkogni-tiivisentieteenja teknologiantutkimusryhmässätehtävävisuaalisenpuheenhavaitsemisenneurokognitiivistenmekanismientutkimus(ks. 54), Jyväsky-län yliopiston suomenkielen laitoksenharjoittamasuomenkielen omaksu-misenja dysleksiantutkimus(ks. 71), Tampereenyliopistonsuomenkielenja yleisenkielitieteenlaitoksellaharjoitettavalapsenkielenomaksumisentut-kimus (ks. 76), Joensuunyliopistonvieraidenkielten laitoksellaharjoitetta-va puheenprosodistenilmiöiden mallintamisentutkimus(ks.84) sekäKoti-maistenkieltentutkimuskeskuksessaharjoitettava suomenmurteidenproso-diikan tutkimus(ks.56).

Monet lähtökohdiltaansoveltavat tieteenalatja tutkimushankkeetlähestyvätperustutkimuksenkysymyksenasetteluja.Toisaaltasoveltava tutkimus tuot-taauseinperustutkimustaedistäviähavaintojaja menetelmiä.Tämäntyyppi-seentutkimukseenvoidaanvastaajistalukeaTampereenyliopistonpuheopinlaitoksellatehtäväpuheteknistennormienja äänenlaaduntutkimus(ks. 64),Teknillisenkorkeakoulunakustiikanja äänenkäsittelytekniikanlaboratorios-saharjoitettava ihmisenpuheentuottomekanismienlaskennallinenmallinnussekäpuheteknologiaanliittyvien kognitiivistentekijöidentutkimus(ks. 40)sekäOulunyliopistonMediaTeam-tutkimusryhmässäharjoitettava puheen-aiheidenpuhujantunnetilojenidentifioinnintutkimus(ks.59).

Perustutkimuksentutkimusongelmatasettavat tutkimusaineistolleuseinvaa-timuksia,joihin olemassaolevataineistoteivätvoi vastata.Perustutkimuksentutkimusaineistoton useinkoottava kunkin tutkimuskysymyksenedellyttä-mällätavalla.Tästäsyystäolisi tärkeää,ettäperustutkimuksenrahoituksessaotettaisiinhuomioonmyösuusientutkimusaineistojenkokoaminen.

Page 21: Puheentutkimuksen resurssit Suomessaettä ihminen voi välittää tietoa sisäisistä tarpeistaan ja ulkoisesta olemukses-taan organisoimalla liikkeeseen ilman molekyylejä keuhkojen

4. Vastaustenanalyysi 21

Tässäraportissamainituistatutkimusaineistoistayleiskäyttöisimmätpuheenperustutkimukseensoveltuvat aineistotlienevät suomenkielinenpuhetieto-kanta(ks. 49) ja mittava puheopinlaitoksenäänitearkisto(ks. 67). Uuden-tyyppinenmerkittäväaineistoonTeknillisenkorkeakoulunkognitiivisentie-teenja teknologiantutkimusryhmänkeräämäaudiovisuaalinenpuhetietokan-ta (ks.55).

4.3 Puheteknologian tutkim us

Puheteknologiantutkimuksellatarkoitetaanpuhettakäsitteleväntekniikantie-teellistätutkimustasekäsiihenliittyvien matemaattistenja tietoteknistenme-netelmienkehittämistä.Perinteisestipuheteknologiaaon tutkittu teknillisis-säkorkeakouluissaosanasignaalinkäsittelyn,neurolaskennantai tietoteknii-kantutkimusta,muttanykyäänyhäuseamminmyösfonetiikanja kielitekno-logianpiirissä.Tekesinvuonna1999käynnistämälläUSIX-teknologiaohjel-mallajavuonna2001käynnistyneelläkieliteknologianopetuksenverkostollaonhuomattavavaikutusalanverkostoitumiseenja monitieteistymiseen.Tois-taiseksikuitenkin dialogin ja puheenvariaationtutkimuson jäänyt verkos-tojenulkopuolelle.Keskeisetpuheteknologiantutkimuskohteetovatpuheen-koodaus,puheentunnistus,puhujantunnistus,puhesynteesi,tiedonhakupu-hedatasta,dialogijärjestelmätja puhetietokantojenkehitystyö.

Puheteknologiantutkimustaedustavatvastanneista:

! Teknillisenkorkeakoulunakustiikanja äänenkäsittelytekniikanlabora-toriossaharjoitettavapuhesynteesiin,puheentunnistuksenja puhetieto-kantatekniikantutkimus.QuickSig-puhetietokantajärjestelmääja suo-menkielenpuhetietokantaalaboratorioonkehittänyt yhteistyössäHel-singinyliopistonfonetiikanlaitoksenkanssa.Viimeksimainitunkehit-tämiseenosallistuunykyäänmyösJoensuunyliopistonvieraidenkiel-tenlaitos.

! USIX-ohjelmaankuuluvasuomenkielisenpuheteknologianyhteishan-ke (ks. 84) osahankkeineen(puhesynteesi,puhujantunnistusja suo-menkielenpuhetietokannanlaajentaminen).HankettakoordinoiJoen-suunyliopistonvieraidenkieltenlaitosja siihenosallistuvatmyösHel-singinyliopiston fonetiikanlaitos ja Helsinginyliopistonyleisenkie-litieteenlaitos.

! Tampereenteknillisenkorkeakoulundigitaali-ja tietokonetekniikanlai-toksentutkimushankkeet,joissatutkitaanmonikielistäpuheentunnis-tusta,matalanbittinopeudenpuheenkoodaustasekäääniportaalinke-hittämistä(ks.43).

! Tampereenteknillisen korkeakoulun Digitaalisenmedianinstituutintutkimusprojektit,joissakehitetäänmonikielistäpuheentunnistustate-lepalveluita vartensekäpuheentunnistustatiedonhauntarpeisiin(ks.45).

Page 22: Puheentutkimuksen resurssit Suomessaettä ihminen voi välittää tietoa sisäisistä tarpeistaan ja ulkoisesta olemukses-taan organisoimalla liikkeeseen ilman molekyylejä keuhkojen

22 PuheentutkimuksenresurssitSuomessa

! Teknillisenkorkeakoulunneuroverkkojentutkimusyksikössäharjoitet-tavapuheentunnistusalgoritmienjadialogijärjestelmientutkimusjake-hitystyö(ks.61).

! Tampereenyliopiston TAUCHI-tutkimusryhmässätehtäväadaptiivis-tenpuhekäyttöliittymienkehitysja multimodaalisenihmisenja koneenvälisenvuorovaikutuksentutkimus(ks.80).

Raportissamainitutpuheteknologiantutkimusaineistotonkoottuallaolevaantaulukkoon.Monetpuheteknologiantutkijat tarvitsisivatlaajempiaja tarkem-min annotoitujaaineistoja,joihin sisältyisimyösluonnollistakeskustelua.

Aineiston nimi Lisätietoa sivulla

Suomenkielinenpuhetietokanta 49Lingsoft FinnishSpeechDatabase 59SpeechDatII 46Audiovisuaalinenpuhetietokanta 55Suomenvokaalit 50Puhuvasuomenkielensanakirja 50Karjalainen-puhekorpus 85MediaTeaminpuheaineisto 60Neuroverkkojentutkimusyksikönpuhetietokanta 61TAUCHI:n puheenvuoroaineistot 81

4.4 Puhekielen ja kielellisen variaation tutkim us

Puhekielenja kielellisenvariaationtutkimustarkoittaapuheenalueellisenjasosiaalisenvaihtelunkuvaamistaja selittämistä.Tutkimus on luonteeltaanperustutkimustaja sitäharjoitetaanlähinnähumanistisenkielentutkimuksenosanasosiolingvistiikanja murteentutkimuksenmenetelmin.

Alan merkittäväkeskusSuomessaonTampereenyliopistonsuomenkielenjayleisenkielitieteenlaitos(ks.76), jokavastaasosiolingvistiikantutkimuksenja opetuksenkehittämisestävaltakunnallisesti.Laitoksessatutkitaan myössuomenkielenfonetiikkaaja pragmatiikkaa.Muita puhekielenja kielellisenvariaationtutkimuslaitoksiaovatvastaajistaKotimaistenkieltentutkimuskes-kus (ks. 56), Turun yliopiston suomalaisenja yleisenkielitieteenlaitos (ks.73), Joensuunyliopistonsuomenkielenja kulttuuritieteidenlaitos(ks.75) jaOulunyliopistonsuomenkielenjaos(ks.78).

Puhekielenja kielellisenvariaationtutkijoilla on useitalaajojanauhoitear-kistoja, joilla on sekätutkimuksellistaettäkulttuurihistoriallistamerkitystä.Moniennauhoitearkistojenhistoriaulottuuyli 40 vuodenpäähänja vanhim-matnauhoitteetolisi tärkeäpelastaatuhoutumiselta.Toistaiseksivain hyvinpieni osanauhoitteistaon digitaalisessamuodossa.Huolellisesti toteutettuaineistojendigitointi laajentaisimerkittävästiniidenkäyttömahdollisuuksia,vaikkaäänitteidenlaatuei useimmissatapauksissariitä akustisenanalyysintarpeisiin.Digitoinnin suunnittelussaja toteutuksessaolisi suurtahyötyäyh-teisistästandardeistaja teknisimminsuuntautuneidenpuheentutkijoidentie-totaidosta.

Page 23: Puheentutkimuksen resurssit Suomessaettä ihminen voi välittää tietoa sisäisistä tarpeistaan ja ulkoisesta olemukses-taan organisoimalla liikkeeseen ilman molekyylejä keuhkojen

4. Vastaustenanalyysi 23

Alla olevaantaulukkoonon kootturaportissamainitutpuhekielenja kielelli-senvariaationtutkimuksentutkimusaineistot.

Aineiston nimi Lisätietoa sivulla

Tampereenpuhekieli 77Tampereenmuuttujatutkimus 77Sanastoja maailmankuva-aineisto 77Virtain aineisto 77Meänkielenaineisto 77PekkaLehtimäenaineisto 78KlausLaalonaineisto 78EsaLehtisenaineisto 78Suomenkielennauhoitearkisto 57Suomenkielenäänitearkisto 73Lauseopinarkisto 74Oulunnauhoitearkisto 78

4.5 Dialogin ja kielellisen vuor ovaikutuksen tutkim us

Dialogin ja kielellisenvuorovaikutuksentutkimuspyrkii selvittämäänluon-nollisen arkikeskustelunlainalaisuuksia,vuorovaikutuksenkielioppia. Eni-ten dialogiaja kielellistä vuorovaikutustatutkitaanhumanististenja yhteis-kuntatieteidenpiirissäkeskustelunanalyyttisellämenetelmällä.Toisaaltamyösteknistentieteidenpiirissä on herännyt yhä enenevässämäärin kiinnostusluonnolliseendialogiinpuhekäyttöliittymiäja dialogijärjestelmiäkehitettäes-sä.Toistaiseksinäidentieteenalojenvälille ei kuitenkaanolesyntynyt yhteis-työtä. Humanistis-yhteiskuntatieteelliselläpuolella tutkimuson keskittynyterityisesti institutionaalistenvuorovaikutustilanteidentutkimukseen.Tutki-musalanympärilleonsyntynyt Tampereenyliopiston,HelsinginyliopistonjaKotimaistenkielten tutkimuskeskuksenyhteishanke, Institutionaalisenvuo-rovaikutuksentutkimusyksikkö(ks.53).

Tekniselläpuolellavuorovaikutustatutkitaanosanadialogijärjestelmiä,joil-la pyritäänparantamaanihmisenja koneenvälistävuorovaikutusta.Dialo-gijärjestelmiin liittyvää tutkimustaharjoitetaanmm. TampereenyliopistonTAUCHI-ryhmässä(ks. 80), Tampereenteknillisenkorkeakoulun Digitaali-senmedianinstituutissa(ks. 45) sekäTeknillisenkorkeakoulunneuroverko-jentutkimusyksikössäosanaUSIX-ohjelmaankuuluvaaINTERACT-hanket-ta (ks.61).

Institutionaalisenvuorovaikutuksentutkimusyksikköon koonnuttutkimus-projektienyhteydessämerkittäviäaudio- ja videoaineistojalitterointeineen,jotka koostuvat aidoistavuorovaikutustilanteista.Aineistoaon useitakym-meniä tunteja,mutta aineistoteivät ole arkaluonteisuudenvuoksi muidenkäytettävissä.Humanistis-yhteiskuntatieteellisetvariaationtutkijatovat pää-osintyytyväisiänykyisiin aineistoihinsa,joskineräilläosa-alueillakutenpro-sodiananalysoinnissapidettiin toivottavanaläheisempääyhteistyötäfonee-tikkojenkanssa.

Raportissamainitutdialoginja kielellisenvuorovaikutuksentutkimuksentut-kimusaineistotonkoottuallaolevaantaulukkoon.

Page 24: Puheentutkimuksen resurssit Suomessaettä ihminen voi välittää tietoa sisäisistä tarpeistaan ja ulkoisesta olemukses-taan organisoimalla liikkeeseen ilman molekyylejä keuhkojen

24 PuheentutkimuksenresurssitSuomessa

Aineiston nimi Lisätietoa sivulla

Hoitoideologiat-aineisto 53Mini-interventio-aineisto 53Psykoanalyysi-aineisto 53Keskusteluntutkimuksenarkisto(HY) 70AsiointitilanteetKelassa(Kotus) 56TAUCHI-ryhmändialogiaineisto 81

4.6 Kaupallinen puheteknologian tutkim us

Kaupallinenpuheteknologiantutkimuskehittääloppukäyttäjilletarkoitettujapuheteknologiaanperustuviatuotteitaja palveluita.Puheteknologiansovel-luksilla on erittäinmerkittäväkaupallinenpotentiaali,sillä esimerkiksimat-kapuhelimienmaailmanlaajuinenkäyttäjäkuntaonsuuri.

VastaajistakaupallistapuheteknologiaaedustaaLingsoft Oy (ks. 58), Time-houseOy (ks.83), Nokiantutkimuskeskus(ks.62) ja Elisantutkimuskeskus(ks.47).

Page 25: Puheentutkimuksen resurssit Suomessaettä ihminen voi välittää tietoa sisäisistä tarpeistaan ja ulkoisesta olemukses-taan organisoimalla liikkeeseen ilman molekyylejä keuhkojen

5. Toimenpide-ehdotukset 25

5 Toimenpide-ehdotukset

Puhettatutkitaaneri puolellaSuomeapienissämuutamanhengentutkimus-ryhmissä.Yhteiskunnanmuutosja teknologisoituminenovatluoneetpuheen-tutkimukselleuusiatehtäviä,joihin vanhatrakenteeteivätpysty vastaamaan.Puheentutkimusyksiköidenmaantieteellinenja tieteenalakohtaineneristynei-syyssekäyksiköidenpieni koko haittaavatmerkittävästipuheentutkimuksenedistymistäSuomessa.

Tutkimuksenrahoittajatvoisivat parantaapuheentutkimuksenedellytyksiäSuomessatukemalla:

! vähintäänyhdenyli 20 tutkijan kokoisenyksikön syntymistä,jonkatutkimuksellaonselväpainopistealue

! tutkimushankkeita,joissaluodaansiltojaeri puheentutkimuksenaluei-den, erityisestihumanistisenpuheentutkimuksenja puheteknologiantutkijoidenvälille

! puheentutkimukseneri alueidenverkostoitumista

! tutkimusaineistojenkokoamistaja käyttöäkoskevien yhteistenstan-dardienja pelisääntöjenlaatimista

! olemassaolevientutkimusaineistojenkäytönkoordinointia

! pitkänaikavälin monitieteistäperustutkimustapuhutunkielenolemuk-senselvittämiseksi

! perus-ja jatkokoulutuksenuudelleenorganisointiamonitieteiseensuun-taan

Page 26: Puheentutkimuksen resurssit Suomessaettä ihminen voi välittää tietoa sisäisistä tarpeistaan ja ulkoisesta olemukses-taan organisoimalla liikkeeseen ilman molekyylejä keuhkojen

Liitteet

Page 27: Puheentutkimuksen resurssit Suomessaettä ihminen voi välittää tietoa sisäisistä tarpeistaan ja ulkoisesta olemukses-taan organisoimalla liikkeeseen ilman molekyylejä keuhkojen

A. Asiantuntija-arviot 27

A Asiantuntija-ar viot

Neurotieteellinen puheentutkim usMikk o Sams (TKK) ja Matti Laine (ÅA)

Mitä aivojentoiminnastapuheentuottamisessaja havaitsemisessatiedetääntällä hetkellä?

Puheenhavaitseminenperustuusekäkuulon että näönvälityksellä saadunpuhesignaalinprosessointiin.Suurinosapuheentutkimuksestaon tähänastikeskittynyt akustiseenpuheeseenja vastaviime aikoina visuaalisenpuheentärkeämerkitysonoivallettu.Tämänseurauksenamm.akustisenja visuaali-senpuheenintegraatiomekanismientutkimuson lisääntynyt. Puheenhavait-semisessaon keskeinenrooli myössiihenliittyville eleillä, joiden roolia japrosessointiatunnetaanvielähyvin vähän.

Moderneillaaivojen kuvantamismenetelmilläon voitu osoittaa,ettäpuhettaprosessoitaessaaktivoituu laajahermoverkosto,jokavaihteleetilanne-ja yk-silökohtaistentekijöidenmukaan.Puheenprosessointiinliittyy siis massiivi-sia,osinajallis-paikallisestieriytyneitäja osinsamanaikaisiaaivoaktivaatioi-ta.Aivovauriotutkimuksetovat osoittaneet,ettätietyt vasemmanaivopuolis-kon alueetovat aikuisilla kielenkäyttäjilläkriittisiä puheenja kielenproses-soinninkannalta.Tämäkoskeesekäpuhuttuaettäviitottuakieltä,eli »kielenydin» on jotainmuutakuin siihenkäytetytaistikanavat.Vasemmanaivopuo-liskon alueidensisälläon myöstoiminnallistaerikoistumistaEräätpotilasta-pauksetviittaavat siihen,ettäkielenrakenteellisillakategorioilla on yhteyttäaivojen järjestäytymiseen(esim.merkitysjärjestelmä,syntaksi,sanojenään-teellisetja kirjoitetut hahmot).Puheenja kielen vahvasti vuorovaikutuksel-lista luonnettakuvaavat tulokset,joiden mukaanlukutaidonomaksuminenmuuntaaaivojentapaakäsitellääännetasonkielellistä(fonologista)tietoa.

Mitä uusiatuloksiaonodotettavissaseuraavanviidenvuodenaikana?

Tietokoneilla tapahtuvan mallintamisenkehittymisenmyötätulevat puheenprosessoinninpsykologisetmallit aiempaayksityiskohtaisemmiksija dynaa-misemmiksi.Eräätsimulaatioihinpohjautuvatteoreettisettuloksetovatjo ky-seenalaistamassasekäkognitiivisenneuropsykologianperusolettamuksiaet-tä ns.nativistista(sisäsyntyistä)näkökulmaapuheenja kielen olemukseen.Teoriakehityksenmyötävoidaanpuheenkehittymisenja senhäiriöidenai-votaustansuhteenasettaatutkimuksessaaiempaatarkempiakysymyksiäjaetsiäniihin vastaustamm. kuvantamistekniikoilla. Kuvantamistutkimukset

Page 28: Puheentutkimuksen resurssit Suomessaettä ihminen voi välittää tietoa sisäisistä tarpeistaan ja ulkoisesta olemukses-taan organisoimalla liikkeeseen ilman molekyylejä keuhkojen

28 PuheentutkimuksenresurssitSuomessa

ovat vielä pioneerivaiheessaeikä ko. metodienja niiden yhdistelmienpo-tentiaalistaole vielä selvyyttä.Näillä metodeillaluodaanlähinnä»yleiskart-taa»aivostollisistatapahtumistapuheenprosessoinninyhteydessä.Tarkem-paananalyysiinpyrittäessätarvittaisiin myösyksi- ja monisolurekisteröin-tejä, mutta näitä voidaanluonnollisestikintehdäihmisillä vain erittäin ra-joitetussamäärin,eräidenneurologistenpotilaidenkirurgistenhoitotoimienyhteydessä.

Eräspuheenprosessointimekanismientutkimuksenkannaltatärkeäuusi tut-kimustulosonollut »peilineuronien»löytämineneläintenja ihmistenaivojeneri osista.Nämäneuronitaktivoituvat liikk eitäsuoritettaessaja hyvin samal-la tavoin silloin kunorganismihavaitseetoisenorganisminsuorittavansamaaliik että.Tällaisetpeilineuronitvoivat osoittautuatärkeiksi puheenhavaitse-misessa,ja luovat myöslinkin puheenhavaitsemisenja tuottamisenvälille.On esimerkiksivoitu näyttää,ettäomanpuheenaikanapuhujankuuloaivo-kuorentoimintamuokkautuugeneroidunpuheenmukaisesti.Puheeseenliit-tyvät sensoris-motorisetinteraktiot tulevatkin olemaantärkeätutkimuskoh-de.

Mitkä ovat suurimmataukot tiedossaaivojentoiminnastapuheentuottami-sessaja havaitsemissa?

Suurimpiinhaasteisiinkuuluvatseuraavatkysymykset:

1. Mihin perustuuse,ettäpuheja kieli on tuntemassammemuodossaai-noastaanihmisenominaisuus?Onko ihmisaivoissasisäsyntyinenkie-likyky vai perustuuko se ihmisaivojen ylivoimaiseenlaskennalliseentehoon?Millaisia geneettisiälinkkejä liittyy puhekykyyn ja senkehi-tyksenhäiriöihin?Mihin neuraalisiinjärjestelmiineläintenkommuni-kointikyvyt perustuvat?

2. Puheenymmärtäminenja tuottaminentapahtuunormaalistierittäinno-peastija vaivattomastivaikka tehtäväon osoittautunuterittäinhanka-laksi koneellisellepuheentunnistuksellepuhesignaalinsuurenvaihte-lun takia. Puheentunnistusvaatii hyvin vaihtelevan signaalinvertaa-mistakielellisiin muistiedustumiin.Miten vertaistaminentapahtuujamitennämämuistiedustumatovat järjestäytyneetaivoissa?Tarvitaan-ko jonkinlaistanormalisointia?

3. Puheenja kielenoppimiseenliittyy selvästikintietty »herkkyyskausi»,jonkajälkeenkielentai kieltentäydellinenomaksuminenmuuttuuhan-kalaksi.Mihin aivostollisiin kehitysprosesseihintämäherkkyyskausiliittyy? Miksi sekoskettaaenemmäntiettyjä kielen osa-alueita?Laa-jasti määritellenon suurinosaihmiskunnastakaksikielisiä.Mitkä ai-vostollisettapahtumatliittyvät useammankuin yhdenkielen oppimi-seenja hallintaan?

4. Mikä onpuheennäkemisenosuuskielenymmärtämisessäja mihin me-kanismeihinseperustuu?Onko »puheennäkemisellä»merkitystäpu-heenoppimisessaja selittävätköhäiriöt nähdynja kuullun puheenin-tegraatiomekansimeissajoitakin kielellisiähäiriöitä?

Page 29: Puheentutkimuksen resurssit Suomessaettä ihminen voi välittää tietoa sisäisistä tarpeistaan ja ulkoisesta olemukses-taan organisoimalla liikkeeseen ilman molekyylejä keuhkojen

A. Asiantuntija-arviot 29

Mitä kannattaisitutkia tai selvittääseuraavanviiden vuodenaikana?Entäpitkällä aikavälillä?

Puheenja kielen tutkimuksessatulee tukea monitieteisiälähestymistapojajoissayhdistyykielitieteen,fonetiikan,psykologian,matemaattisenmallinta-misen,neurologianja aivokuvannukseneri osa-alueidenasiantuntemus.Li-säksionhuomioitavasuomenkielenerityispiirteet:nämävaativatkansallistatutkimustaja toisaaltasuomenkieltävoisi aiempaaenemmänhyödyttääkont-rastiivisissatutkimuksissaetsittäessäuniversaalejaja kielispesifejäpuheenjakielenprosessoinninpiirteitä.

Mitä tutkimusresursseihinliittyviä esteitätai rajoituksiapuheentuottamiseenja havaitsemiseenkeskittyvälläaivotutkimuksellaon?

Monitieteisten,humanistisistateknisiintieteisiinulottuvientutkimusryhmienmuodostuminenon keskeinenhaaste.Monitieteisenkielen ja tutkimustradi-tion syntyminenvaatii paljonaikaa.Aivotutkimuksenresurssitja metodiva-likoima on Suomessaerinomainen(EEG, MEG, PET, fMRI, TMS). Erin-omaisenmetodiikanlisäksi tarvitaanvälttämättäteoreettistatyötä aiempaaosuvampientutkimuskysymystenja -asetelmienmuotoilemiseksi.Kognitii-viseenneuropsykologiaanja yksityiskohtaiseenpotilastutkimukseenpohjau-tuva traditio, joka on kansainvälisestitärkeässäasemassapuheenja kielenmekanismientutkimuksessa,onSuomessapuolestaanheikomminkehittynyt.Tällä hetkellä puhettatutkitaanmaassammehyvin pienissätutkimusryhmis-sä,jotkasijaitsevatkaukanatoisistaan.Ala kehittyisi huomattavastinopeam-min, josmaassammeolisi yksi laajamonitieteinenpuheentutkimustatekeväinstituutiotai kyllin tiivis laboratorioidenyhteistyöverkosto.

Eräänärajoituksenapuheenprosessientutkimukselleon ollut keskittymi-nenkielenvastaanotonja erityisestikirjoitetun kielentutkimiseen.Tämäonollut ymmärrettävääpuhtaastikäytännönsyistä,mutta nykyäänon puheenprosessientutkiminenhelpottunuttietokoneavusteistenmenetelmienmyötä(esim.ärsykkeidenlaadinta,puhesignaalineri piirteidenanalyysi).Puhepro-sessienaivotutkimuskinkaipaisikuitenkin laajaaja edustavaamoderninpu-hutunsuomenkielenaineistoa,jostamm. erilaisiakoeasetelmienkaipaamiaäänne-,sana-ja lausetasonyleisyystietojasekäpuhesignaalinvariaationeri-laisiamittojaolisi laskettavissa.

Pystytäänköpuhettatutkivassaneurotieteessähyödyntämäänmuidenpuhet-ta tutkivientieteenalojenhavaintojatai tutkimusmenetelmiä?

Kutenedellätodettiin,monitieteinenyhteistyöonkoko tutkimusalueenkehit-tymisenelinehto.Aivotutkimusmenetelmiinliittyy kuitenkinmetodistariip-puenmyöserilaisiarajoitteita,jotkaonotettavahuomioon(avaruudellinenjaajallinenerottelukyky, motorisensuorituksenkutenpuhe-elintenliikk eidenaiheuttamathäiriöt, laitteistomelu,säteilyrasitus,ilmiöiden lyhytikäisyysjo-ka pakottaakäyttämäänärsykkeitä joita luonnollisessakielessäei yksinäänesiinny).

Onko alueita,joissalähempitieteidenvälinenyhteistyöolisi mahdollista?

Tieteidenvälistäyhteistyötävoisi tiivistääkaikilla em.alueilla.Puheenha-vaitsemiseenja tuottamiseenkeskittyvänriittävän suurentutkimusyhteisön

Page 30: Puheentutkimuksen resurssit Suomessaettä ihminen voi välittää tietoa sisäisistä tarpeistaan ja ulkoisesta olemukses-taan organisoimalla liikkeeseen ilman molekyylejä keuhkojen

30 PuheentutkimuksenresurssitSuomessa

perustaminenolisi tässäsuhteessatärkeää.

Fonetiikan tutkim usKari Suomi (OY)

Mitä tiedetäänääntöelimistöntoiminnastapuheentuottamisessatällä het-kellä?

Liikkuvaneli perifeerisenääntöelimistöneri osientoimintaperiaatteetja nii-denosuudetpuheentuottamisessaovat pääpiirteissääntiedossa,samallakunmonetyksityiskohdatovat edelleenselvittämättä.On olemassamonenlaistakvantitatiivistatietoaääntöelimistönuseidenosientoiminnastapuheentuot-tamiseneri vaiheissa(mm. hermotoiminnasta,ääntöelimistöneri osienliik-keistä,ilman virtauksistajne.), muttavähäntietoasiitä miten osatoiminnotkoordinoidaantoistensakanssa,eli siitä mitenääntöelimistötoimii kokonai-suutena.Laajastiymmärrettynäääntöelimistökattaamyöskeskushermostonpuhekeskukseneli ns. sentraalisenääntöelimistön,keskuksenjoka oletetta-vasti vastaapuheentuottamisenkokonaiskoordinaatiosta,ja toistaiseksitä-mänkeskuksentoiminnastatiedetäänhyvin vähän.Miten puhujamuuttaaai-komansakielellisensanomanpuhe-elimistöntoiminnaksi,jamitääänteellisiäyksiköitätämäntoiminnansuunnittelussakäytetään?

Mitä uusiatuloksiaon odotettavissaseuraavanviidenvuodenaikana?Entäpidemmälläaikavälillä?

Mitäänvarsinaistaläpimurtoapuheentuottamisentutkimuksessaei lieneodo-tettavissaviidessävuodessa.Perifeerisenääntöelimistöntoiminnantutkimus-menetelmätkehittynevätedelleen,ja toivottavastijatkuvastimonipuolistuvataivojen toiminnantutkimusmenetelmättuovat pitkällä aikavälillä uutta tie-toapuheensentraalisestaohjauksesta.Tässätarvitaanilmeisestimyösentis-tä parempialingvistisiäteorioitapuheenfoneettis-fonologisestarakenteesta.Tutkimustaonmyösmahdollisuuksienmukaanpyrittäväsuuntaamaanspon-taaninpuheentuottamiseen.

Mitkä ovat suurimmataukot tieteellisessätiedossapuheentuottamisestajahavaitsemisesta?

Sekäpuheentuottamisessaettä havaitsemisessasuurimmataukot koskevatpuheensentraalisia,aivoissatapahtuviavaiheita.Mitä aivoissatapahtuupu-huttaessaja puhettavastaanotettaessa?Etenkinpuheenhavaitsemisenmal-lintaminenon osoittautunuthyvin vaikeaksitehtäväksi;kuulijassahanei ta-pahdumitäänmitä voisi ulkoapäinhavainnoida.Vaikka tiedetäänpaljonkinuseidenpuheenakustistenmuuttujienja havainnonvälisistäsuhteista(esi-merkiksivokaalienspektrirakenteenja vokaalienhavaitunfoneettisenlaadunvälisistäsuhteista),mitäänyhtenäistäteoriaapuheenhavaitsemisestaei oleilmaantunut,ja samatempiirisethavainnotvoidaansovittaahyvinkin erilai-siin teoreettisiinviitekehyksiin.

Mitä kannattaisitutkia tai selvittääseuraavanviiden vuodenaikana?Entäpitkällä aikavälillä?

Page 31: Puheentutkimuksen resurssit Suomessaettä ihminen voi välittää tietoa sisäisistä tarpeistaan ja ulkoisesta olemukses-taan organisoimalla liikkeeseen ilman molekyylejä keuhkojen

A. Asiantuntija-arviot 31

Edellisiinvastauksiinviitaten,kannattaisiilmeisestitutkiapuheenkognitiivi-siaedellytyksiäsekälyhyelläettäpitkälläaikavälillä. Toisaaltapuheenkaik-kia konkreettisempiakaanilmiöitä ei ole selvitettyriittävästi,eikä tässäkat-sannossaolesyytäkiinnittääkaikkeahuomiotakovin abstrakteihinasioihin.

Onko fonetiikantutkimuksellatutkimusresursseihinliittyviä esteitätai rajoi-tuksia?

Suurinvaikeusjohtuu tutkimushenkilöstönvähäisyydestä.Vakinaisestipal-katunfonetiikanhenkilökunnantyöajastasuuriosakuluuopetukseen,jokaeisuoranaisestiliity tutkimukseen.Valtiovallanpyrkimys lyhentääopiskeluai-koja ei kannustaopiskelijoita sisällyttämäänfonetiikankaltaistensivuainei-denopintojatutkintoihinsa,ja toisaaltaopintosuoritustenvähäisyysei suosiopetus-ja tutkimushenkilökunnanlisäämistä.Nykyinensuuntausjohtaayhäenenevässämäärin(kieliaineidenopiskelijoiden)tutkintojenyksipuolistumi-seensitenettänekoostuvat vain koulussaopetettavien aineidenopinnoista,jolloin vaaranaonettäteoreettisemminpainottuneidenaineiden(kutenfone-tiikan ja yleisenkielitieteen)opetusja tutkimuskuihtuvat.

Hyödynnetäänköfonetiikassamuidenpuhettatutkivientieteenalojenhavain-toja tai tutkimusmenetelmiä?Onko alueita, joissa läheisempitieteidenväli-nenyhteistyöolisi mahdollista?

Fonetiikkaon perinteisestikinollut hyvin poikkitieteellinenlähestymistapapuheeseen,joskin lähtökohdatovat yleensäpainottuneetkielitieteellisesti.Muidentieteenalojenhavaintojaja tutkimusmenetelmiäonhyödynnettymah-dollisuuksienmukaan.Onilmanmuutaolemassauseitaalueita,joissaentistäläheisempitieteidenvälinenyhteistyöolisi mahdollistaja toivottavaa.Tärkeä-tä olisi erityisestiperinteisettiedekuntarajatylittävä yhteistyö,onhanpuheedelleenkintärkein ihmistenvälinen viestintävälineja tulevaisuudessayhäenemmänmyösihmisenja koneenvälinenviestintäväline.

Dialogin ja vuor ovaikutuksen tutkim usLauri Carlson (HY)

Mitä tiedetääntällä hetkellä dialogin lainalaisuuksistaja kontekstiinliitty-vienseikkojenvaikutuksestapuheentulkintaan?

Teoreettinen,tutkijanintuitioonpohjaavakeskusteluntutkimusvilkastuiprag-matiikan nimellä 60- ja 70-luvulla arkikielen filosofian ideoidenpohjalta.70-luvunalussakäynnistyisosiologianpiirissäetnometodologiannimelläai-toihin keskusteluaineistoihinnojaavaempiirinenkeskusteluntutkimus.Tästäkehittynyt keskustelunanalyysi(conversationanalysis)on 90-luvullasaavut-tanutSuomessajohtavanasemanhumanistis-yhteiskuntatieteellisessäpuhe-kielentutkimuksessa,lähinnäprofessoriAuli Hakulisen johtamantutkijayh-teisönaktiivisentoiminnanansiosta.

Pragmaattinendialogin tutkimusnosti esiin näkemyksendialogistatilantei-sena,tarkoitusperäisenäyhteistoimintana,»dialogipelinä».Keskusteluon jä-sentynyttäyhteistoimintaa;merkitystai tulkintaonpäättelyätai neuvottelua,

Page 32: Puheentutkimuksen resurssit Suomessaettä ihminen voi välittää tietoa sisäisistä tarpeistaan ja ulkoisesta olemukses-taan organisoimalla liikkeeseen ilman molekyylejä keuhkojen

32 PuheentutkimuksenresurssitSuomessa

mm. siirtojen merkitys ja osanottajienroolit muovautuvat keskustelunku-luessa.

Etnometodologinentutkimusvälttääotaksumiakeskustelijoidenlausumatto-mistatarkoituksista.Menetelmänäon todellistenkeskustelujenlitterointi jayksittäistentapausesimerkkienhuolellinenanalyysija vertailu yleensäpie-nistäaineistoista.Koejärjestelyjäei käytetä.Tutkimuson luonteeltaankvali-tatiivista.

Keskustelunanalyysinmenetelmälläon tunnistettuja nimetty keskustelujenrakennetekijöitä,kutenvuor o, vieruspari , välisekvenssi jne.Yksinkertainenklassinentulosonvapaankeskustelunvuorottelusääntö:

äänessäolijavalitseeseuraavanpuhujan;ellei, seuraavapuhujavalitseeitsensä;muutenäänessäolijajatkaa.

Mitkäovatsuurimmataukot tieteellisessätiedossadialoginmerkityksestäpu-heentulkinnalle?

Keskustelujenongelmakohtia ja korjauskeinojaon tutkittu vilkkaasti. Kes-kusteluntutkimuksessaei kuitenkaanole juuri suoraantutkittu puheen(akus-tisensignaalin)tunnistamisenjakeskustelunkulunvälisiäkorrelaatioita.Kes-kusteluntutkijanaineistoon tyypillisesti tutkijan itsensäkuulonvaraisestilit-teroimaa(useinakustisestiheikkolaatuisista,luonnollisissatilanteissanau-hoitetuistaäänityksistä).Etnometodologisessatutkimuksessaon ideologisis-takin syistäperinteisestivältetty laajojatai kvantitatiivisia yleistyksiä.Muu-tamansuurenaukonsijastavoisi sanoaolevantaajaltipienempiäreikiä,min-kä johdostakudelmaei ole luja.

Mitä dialogin ominaisuuksiakannattaisitutkia seuraavanviidenvuodenai-kana?Entäpidemmälläaikavälillä?

Tietojenkäsittelytieteenja kieliteknologiankeinointapahtuva ihmisenja ko-neenvälisenkeskustelunmallinnuson lähestymässäalhaaltapäinsamaatut-kimuskohdetta,luonnollistadialogia.Toistaiseksiimplementoitavissaolevatmallit pystyvätomienrajoitustensavuoksiheikosti käyttämäänhyväksikes-kusteluntutkimuksentuloksia– kääntäenkeskustelunanalyysintutkijoille eitoistaiseksiole hyötyäkieliteknologiantutkijoiden malleista.On kuitenkinodotettavissa,ettäkosketuspintaalojenvälillä kasvaa.Esimerkiksidialoginmallinnuksessahiljattain tehdytempiirisetkokeilut eri keskustelustrategioil-la näyttävätvahvistavankeskusteluntutkimuksessatehtyjähavaintoja.Näitälähestymis-tai yhtymäkohtiaolisi varmastihedelmällistätutkia.

Onkodialogin tutkimuksellatutkimusresursseihinliittyviä esteitätai vaikeuk-sia?

Sekäkeskusteluntutkimustaettä dialogin mallinnustahaittaakäytettävissäolevien keskusteluaineistojenpienuusja vaikeasaatavuus.Alojen yhteismi-tattomuusonkin osaksiaineistontuotantoteknologianeroistaja puutteistajohtuva artefakti. Aineistojensaatavuudenparantaminenedistäisimolempiatutkimussuuntiaja lähentäisiniitä.

Page 33: Puheentutkimuksen resurssit Suomessaettä ihminen voi välittää tietoa sisäisistä tarpeistaan ja ulkoisesta olemukses-taan organisoimalla liikkeeseen ilman molekyylejä keuhkojen

A. Asiantuntija-arviot 33

Pystytäänkökeskustelututkimuksessahyödyntämäänmuidenpuhettatutki-vientieteenalojenhavaintojaja menetelmiä?Onko alueita,joissaläheisempiyhteistyöolisi hedelmällistä?

Keskusteluntutkimuksenaineistotovat erittäin pieniä ja litterointi käsinonhidasta.Vaikkamenetelmälläonomat,»käsityöhön»liittyvät etunsa,tutkijatovat luonnollisestikiinnostuneitanopeammistaaineistojenkäsittelymenetel-mistä.Laajemmillaaineistoillaolisi mahdollistaylittää eräitäkeskusteluna-nalyysinlähinnämenetelmällisiärajoituksia,kutentulostenkvalitatiivisuusja vaikeatoistettavuus.Yhteistyöstäolisi apuamm.sopivienaineistontallen-nusstandardien(MATE, XCES)ja -menetelmienvalinnassaja käyttöönotos-sa.

Puhesynteesin tutkim usMartti Vainio (HY)

Puhesynteesion perinteisestipalvellut tiedettä.Puhesynteesiäovat hyödyn-täneetniin psykologit kuin puheentuotonfysiologiankintutkijat. Puhesyn-teesinavulla on ollut mahdollistatodentaapuhettamallintavien teorioidenpätevyys ja seon antanutmahdollisuudentuottaatarkastikontrolloituja är-sykkeitämm.puheenhavaitsemisentutkimukseen.

Vammaistenapuvälineenäpuhesynteesiäon käytetty1970-luvultaasti.Täl-lä hetkelläpuhesynteesion yleistymässämonilla teollisuudenja yksityiselä-mänaloilla. Esimerkkeinäovat jatkuvastimuuttuvaninformaationsiirto pu-helinverkossa(erilaisetaikataulut,tilitiedot, pörssitiedot,säätila,sääennus-teetjne.),dokumenttienmuunnospuheeksi(sähköposti,kirjoitukseksimuun-netutfax-dokumentitjne.) tai puheellatuotetutviestit eri liik ennevälineidenkuljettajille tai teollisuudenprosessikontrollissa.Erästärkeä tulevaisuudensovellusalueovat dialogijärjestelmät,joissapuheenautomaattinentunnistusja synteesitoimivatyhdessä.

Kaikki mainitut sovelluksetasettavat suuriavaatimuksiapuhesynteesinlaa-dulle ja luonnollisuudelle.Esimerkiksikäsipuhelimienkauttakulkeva puhejoutuu useinalttiiksi ulkopuolisellehäiriöille. Nykyiset synteesijärjestelmäteivät pysty vastaamaanhuonojen,muttayleistenolosuhteidenvaatimuksiinja järjestelmiäkehitetäänkinmukautuvammiksi ja puhesynteesinluonnolli-suuttapyritäänlisäämään.Tämäon kuitenkinvaikeatehtävä,joka vaatii tie-toa ja tutkimustakoko puheketjun alueeltasignaalintuotostaja käsittelystälähtienainasosiaalisenpuhevuorovaikutuksenkeinoihinasti.Puhesynteesintutkimusonsiis luonnostaanmonitieteistä.

Mihin puhesynteesipystyytällä hetkellä?

Puhesynteesionsovelluksenakehittymässämelko käyttökelpoiseksins.unit-selection-synteesinansiosta.Unit-selection-synteesissävalmiiksi tallennet-tuapuhettakootaanlauseiksi»leikkaaja liimaa» -menetelmällä.Tämätapaei kuitenkaanole joustava ja sensoveltuvuusonrajallinen.Niin sanotulladi-fonikonkatenaatiosynteesilläsaadaanpuolestaanjoustavia sovelluksia,muttaluonnollisuudenja siitäseuraavanymmärrettävyydenkustannuksella.

Page 34: Puheentutkimuksen resurssit Suomessaettä ihminen voi välittää tietoa sisäisistä tarpeistaan ja ulkoisesta olemukses-taan organisoimalla liikkeeseen ilman molekyylejä keuhkojen

34 PuheentutkimuksenresurssitSuomessa

vwvvwvvwvxwxxwxxwx

ywyywyywyzwzzwzzwz

{w{{w{{w{|w||w||w|

}w}}w}}w}~w~~w~~w~

+

+

laatu

muokkautuvuus

ihminen

"unit selection"

difonisynteesi

formanttisynteesi

KuvaA.1: Eri puhesynteesimenetelmiensuhdetoisiinsa.

Mitkä ovat tällä hetkellä suurimmathaasteetpuhesynteesintutkimuksessa?

Suurimmattieteellisethaasteetliittyvät synteettisenpuheenluonnollisuuteen,jonka voidaankatsoakoostuvan painotuksenja intonaation(prosodia)sekäpuhuttavan lingvistisenviestin suhteista.Puhesynteesinkannaltatilanneonhankala,sillä unit-selection-synteesion tarjonnutoikotien tehdätallennet-tuun puheeseenperustuviasovelluksia, jotka tuottavat hyvin luonnolliseltakuulostavaapuhetta.Tämäsynteesimenetelmäkuitenkinhidastaatulevaisuu-densovellustenvaatimaaperustutkimusta,jota itse asiassatarvittaisiin yhäenemmän.

Toisaaltamyössignaalintuottamisessaon suuriahaasteitajuuri prosodistenparametrienvaatimanjoustavuudentakia.Näköpiirissäon jopapaluutäysinsynteettiseenpuheentuottoon(ns.formanttisynteesiin),koskanykyisillä me-netelmilläei voida kontrolloidaesimerkiksiäänenlaadunmuutoksia,jotkaovatolennainenosaluonnollistapuhettaja toimivatmonenlaisinavihjeinäil-maustenrakenteestaja ovat tärkeässäasemassaesimerkiksipuheenvuorojensäätelyssäkeskustelussa.

Mitkäpuhesynteesinhaasteetratkeavattodennäköisestiseuraavanviidenvuo-denaikana?Entämitkäpitkällä aikavälillä?

Lähivuosinapuhesynteesisovellustenlaatutulleeparantumaanedellämaini-tun unit-selection-synteesinavulla. Tämäei kuitenkaanole lopullinen rat-kaisu.Puhesynteesija sitä tukeva tutkimustuleeetenemäänasteittainkohtiparempiamallejapuheentuotostaja puhettatuottavastaihmisestä.Haasteidenmääräja resurssientarve lisääntyyaudio-visuaalinenpuhesynteesinyleisty-misenmyötä.

Mitä kannattaisitutkia tai selvittääseuraavanviiden vuodenaikana?Entäpitkällä aikavälillä?

Lyhyelläaikavälillä olisi tärkeääsaadauuttatietoapuheenrakenteidensuh-teestasensisältämäänkielliseenrakenteeseenja informaatioon.Olisi tärkeäpystyähallitsemaanilmauksiasuurempiayksiköitäkutenkokonaisiatekste-jä tai vastaavastikeskustelussailmeneviä yksiköitä (topiikkeja jne.).Audio-visuaalinenpuhetulee luomaanuusiatutkimusalueita,joita ei voida jättää

Page 35: Puheentutkimuksen resurssit Suomessaettä ihminen voi välittää tietoa sisäisistä tarpeistaan ja ulkoisesta olemukses-taan organisoimalla liikkeeseen ilman molekyylejä keuhkojen

A. Asiantuntija-arviot 35

huomioimatta.

Niin pitkällä kuin lyhyelläkin aikavälillä kaikki puheeseenliittyvä perustut-kimus on tarpeen.Erityisesti suomenkielen kannaltaolisi järkevääpyrkiäsellaisiinaiheisiin,joita ei voidamuuallatehdyntutkimuksenavulla yleistääsuomeen,kutenesimerkiksierilaisiaprosodisiamalleja.

Pystytäänköpuhesynteesintutkimuksessahyödyntämäänmuidenpuhettatut-kivientieteenalojenhavaintojaja menetelmiä?

Puheon luonnostaanilmiö, jota voidaantutkia menestyksellisestitieteidenväliselläyhteistyöllä.Voisi jopasanoa,ettämonitieteisyyson tulevaisuudenpuheentutkimuksenkulmakivi. Puhesynteesinja senvaatimienmalliensekäteorioidenkehittäminenon erityisestimonitieteinenja suorastaanvaatii yh-teistyötäeri tieteenalojenvälillä.

Onko tieteidenväliselleyhteistyöllevakaviaesteitä?

Pahimmatyhteistyötävaikeuttavat esteetlienevät tutkijoidenpieni määräjaheidänmaantieteellinensijouttumisensaympärisuhteellisensuurtamaatam-me.

Onko puhesynteesintutkimuksellatutkimusresursseihiinliittyviä esteitätaivaikeuksia?

Puheentutkimustahaittaayleisesti tutkijoiden ja opiskelijoiden pieni luku-määrä.Suomessapuheentutkijoitaon koko maassayhteensäsuurinpiirteinsamamääräkuin yhdessäsuurehkossaeurooppalaisessalaboratoriossa.Esi-merkiksi suomenprosodianparissatyöskenteleetällä hetkellä vain koural-linen tutkijoita, jotka joutuvat samallavastaamaantutkimustaantukevastainfrastruktuurista,työkaluistaja tietokannoista.Tilanneon itse asiassakes-tämätön.Resurssienpuute,rajallisuusja hajanaisuusulottuu kaikkien tut-kimusalueenosa-alueidenyli tutkijoidenkoulutuksestatietotekniseeninfra-struktuuriin.

Puheentunnistuksen tutkim usUnto K. Laine (TKK)

Mihin automaattinenpuheentunnistuspystyytällä hetkellä?

Markkinoilla on useitakinpuheentunnistimiaenglanninkielelle ja ainakinyksi suomenkielelle, jotkaainakintuotettamyyvienmielestätoimivathyvin.Puheentunnistimienobjektiivinenvertailuon todellavaativa tehtäväja osintästäjohtuenei näidentuotteidentodellisistasuorituskyvyistäole saatavissatietoa.

Pienehkölläsanastollapuhujariippuvastitoimivat tunnistimetovat jo tulossamm.matkapuhelimiin,joka jo sinälläänkertoneesiitä,ettätekniikkaonkyp-synyt tuoteasteelle.Hajanaisetkäyttäjienantamatkuvauksetvahvistavatsen,ettänämätunnistimettodellaovatvarsinkäyttökelpoisia.

Page 36: Puheentutkimuksen resurssit Suomessaettä ihminen voi välittää tietoa sisäisistä tarpeistaan ja ulkoisesta olemukses-taan organisoimalla liikkeeseen ilman molekyylejä keuhkojen

36 PuheentutkimuksenresurssitSuomessa

Puheentunnistuksenongelmavaikeutuuheti,kunpyritäänpalvelemaankaik-kia (tietyn kieliryhmän)puhujia.Pienehköllä,muutamienkymmeniensano-jen sanastollaon toki mahdollistasaadaaikaanmelko hyvin toimivia puhu-jariippumattomiakinjärjestelmiä.Sanastonkasvaessasanojen»foneeminenetäisyys»pieneneeja virhetunnistustenmääräkasvaa.Puhuja-adaptaatiollavoidaanpäästäparempaantulokseensiten,ettäalussatunnistustulosvoi ollamelkovirheellinen,muttajärjestelmäoppii ko.henkilönääneneritysipiirteitäja vähitellenparantaatulosta.

Omalukunsaon ääniympäristönaiheuttamatongelmat,siirtotien ongelmat,mikrofonitekniikka,jne. Tilanteita,joissapuheentunnistuksenpitäisi toimiaonlukemattomia,eikätunnistimiensuorituskykyävoidaluotetavastivertaillaläheskäänkaikissamahdollisissakäyttötilanteissa.

Mitkä ovat tällä hetkellä suurimmathaasteetpuheentunnistuksentutkimuk-sessa?

Perustutkimuksentuomaperustietämysja ymmärryspuhekommunikaationluonteestaja myös ihmisen tavastaselviytyä kommunikaatiotilanteistaonriittämätöntä.Tarvitaanlaajallarintamallasyvemmällemenevääperustutki-musta.Helpot ja pinnallisetratkaisuton jo läpikäytymoneenkertaan.Työtätunnutaanyhäjatkavanmiltei samoinajatuksinja menetelmin,samoillaosa-alueilla,isoilla panostuksilla,muttamyösmelko hitaallaedistymisellä.Pitäälöytääratkaisevastiuusianäkökohtia,menetelmiäja tekniikoita.

Suurimmathaasteetovatsiispitkäjänteisessä,vapaarahoitteisessaperustutki-muksessa,joka ei välittömästitähtääuuteentuotteeseentai jonkin tuotteenyksittäisenominaisuudenparantamiseen,vaankoko kentänsyvällisempäänja perusteellisempaanymmärtämiseen.

Mitkä puheentunnistuksenhaasteetratkeavattodennäköisestiseuraavanvii-denvuodenaikana?Entämitkäpitkällä aikavälillä?

Ellei reippaastiryhdytäheti etsimääntodellauusianäkökulmiamikäänosa-alue ei »ratkea»lyhyellä tähtäimellä.Toki suurellapanostuksellatapahtuujotain evoluutiota, tosin senkinvauhti on alkanuthidastua.Ratkaisevaaonetsitäänköaktiivisesti (ja löydetäänkö)selkeästiuusianäkökohtia ja mene-telmiä.

Mitä kannattaisitutkia tai selvittääseuraavanviiden vuodenaikana?Entäpitkällä aikavälillä?

Ensinnäkinpitääkriittisesti puntaroidanykyisetmenetelmät,mitenniihin onpäädyttyja mitkätekijätovatrajoittamassaniidensuorituskykyä.Nykymene-telmissäon paljonhistoriallistapainolastiavuosikymmententakaa,jota yhäkäytetäänsellaisenaan,ilman, ettäsenroolia ja merkitystäkriittisesti uudel-leenarvioitaisiin.Monethistoriallisetvalinnatperustuvatyksinkertaisestisenaikakaudenajatteluunja tekniikansallimiin mahdollisuuksiin.Nykyäänmo-ni asiavoidaantehdätoisin.

Itse asiassakoko tunnistintekniikkaon käytäväläpi vaihevaiheelta,seulot-tava esiinmenetelmienongelmatja rajoituksetja integroitava mukaanuusiatekniikoita ja menetelmiä.Rinnanteknisen,foneettisenja tietokonelingvisti-

Page 37: Puheentutkimuksen resurssit Suomessaettä ihminen voi välittää tietoa sisäisistä tarpeistaan ja ulkoisesta olemukses-taan organisoimalla liikkeeseen ilman molekyylejä keuhkojen

A. Asiantuntija-arviot 37

sentutkimuksenkanssaon laajennettava ymmärrystäihmisentapaanjäsen-tääpuhetta.Alan perustutkimuson aivan liian pientäjopa maailmanlaajui-sesti.Useissa,vuosikymmentai pari sittenaktiivisessaperustutkimustahar-joittavassayksikössäperustutkimuksenosuuttaon ajettualasja seurauksetovatnyt selvästinähtävissä.Panostustaon lisättynopeanaikavälin »pikaisenvoitontavoittelun»tutkimukseen,mikäei juuri lainkaanlisäälaajempien,sy-vempien,perustavaalaatuaolevienkysymystentutkimustasaatiymmärrystä.

Pystytäänköpuheentunnistuksentutkimuksessahyödyntämäänmuidenpu-hettatutkivientieteenalojenhavaintojaja menetelmiä?

Fonetiikantutkimus,tietokonelingvistiikka,puheenhavaitseminen,dialoginanalyysija mallinnusovat esimerkkejäalueista,joidentutkimusja tietämystukeemyöspuheentunnistusta.Eri kielillä on erilaisiaominaisuuksiaja ra-kenteita.Yhdenja samantekniikantunkeminenpuheentunnistukseenkielenerityispiirteistäpiittaamattavaikuttaatyperältä.Tunnistimientuleeparemminsopeutuamyös kielten erityispiirteisiin ja paremminhyödyntääniitä. Dia-login parempiymmärtäminenauttaarakentamaanälykkäästitoimivia infor-maatiojärjestelmiä.Tälläkin sektorillaollaanvastamelko alussa.

Onko tieteidenväliselleyhteistyöllevakaviaesteitä?

Ennäemitään»vakavia esteitä»tieteidenväliselleyhteistyölle.Yhteistyösu-juu jososapuoletoivaltavatyhteistyönmerkityksen,siihensisältyvänrikkau-denja mahdollisuudennähdäasiataiempaalaajemminja monipuolisemmin.Yhteistyösiispohjimmiltaanonkiinni osapuoltenhenkisestärakenteesta,ei-käesimerkiksiorganisaatiomallista.

Onkopuheentunnistuksentutkimuksellatutkimusresursseihiinliittyviä esteitätai vaikeuksia?

Ehdottomastisuurin esteon pitkäjänteisenperusrahoituksenniukkuuteen.Seuraava esteon rahoitusjärjestelyihinliittyvä paperisotaja byrokratia.Tut-kimushankkeissapitäisiolla aikaamyöstutkia,eikävaintäytellähakemuksiaja raporttilomakkeita.

Puhetietokantojen kehitystyöMatti Karjalainen (TKK)

Puhetietokannoistaja puhetietokantajärjestelmistäontullut 1980-luvultaläh-tien yhä tärkeämpivälineistöja resurssisekäpuheenperustutkimuksenettäerityisestipuheteknologiasovellustenkehittämisenkannalta.Kehitystyöonollut pääasiassakorpusaineistojenkeruutaja annotointia,mutta myös oh-jelmistoja ja järjestelmiäkorpusaineistojenkäsittelyynon tehty. Tunnettujakorpuksiaovat mm. TIMIT (amerikanenglanti),EUROM (EU-kieliä), Kielcorpus(saksa),SpeechDat(EU-kielet), BAS Archive (saksa)ja ANDOSL(australianenglanti).

Korpustietokantojaontyypillisesti levitettykäyttäjilleCD-ROM-levyillä, jois-saonerikseenäänitetiedostotja annotaatiotiedostot.Ominaistapuhetietokan-noille on tähänsaakkaollut niissäkäytettyjenesitysformaattienkirjavuusja

Page 38: Puheentutkimuksen resurssit Suomessaettä ihminen voi välittää tietoa sisäisistä tarpeistaan ja ulkoisesta olemukses-taan organisoimalla liikkeeseen ilman molekyylejä keuhkojen

38 PuheentutkimuksenresurssitSuomessa

yhteensopimattomuus,josta syystäkunkin tietokannankäyttäjänon täyty-nyt hankkiatai kehittäätarvittavatohjelmistot,tyypillisesti erikseenkullekinformaatille.Kehittyneitätiedonesitystapojaon luotu joidenkintietokantojenkäyttöön,mm.ANDOSL ja QuickSig(suomi).

Suomenkielelle on kerätty puhetallenteita,mutta digitaalisessamuodossaoleva varsinainentietokanta-aineistoon verratenvähäistä.Laajin tällainenaineistoon suomenkielinenSpeechDat(II)-aineisto(Tampereenteknillinenkorkeakoulu). Teknillisenkorkeakoulun akustiikanlaboratoriossaon keski-tytty puhetietokantajärjestelmienkehitystyöhön,mutta siihen liittyvä kor-pusaineistoonsuhteellisensuppea.Puheaineistoaja erityskäyttööntarkoitet-tuja tietokantojaonkehitettymyösmonessamuussapaikassa,kutentästäkinraportistailmenee.

Nykyisiäongelmiaja haasteita

Perusongelmaja -haastepuhetietokantojenkehittämisessäonse,ettänekoe-taaneräänlaisena»välttämättömänäpahana»,eli nenähdäänsekäperustutki-muksenettäteknisensovelluskehityksenkannaltavainapuvälineinäja infra-struktuurina.Näin ollen kehitystyönrahoittaminenon ainaollut ongelmal-lisempaakuin varsinaisenpuheentutkimuksen,puhumattakaanteknistenso-vellustenkehitystyöstä.Korpusaineistonkeruuonlisäksityölästä(useinjopayksitoikkoista)muttatarkkuuttavaativaaja virhealtista.Myös tietokantajär-jestelmienja -ohjelmistojenkehitystyöonkallistaja hidasta.

Teknisiähaasteitapuhetietokantatyölle

! Annotaatio(transkriptio,nimikointi) on käsintehtynäerittäinhidasta,työlästäja keskittymistävaativaa,rajoittuenvain pieniin aineistoihin.Automaattinensegmentointija kuvauksenkohdistaminen(alignment)voidaantehdämm. piilo-markov-malleilla (Hidden Markov Models,HMM), muttaniiden tarkkuusja luotettavuusei riitä kaikkiin käyttö-tarkoituksiin.

! Tallenteidenlaatu(tai tieto laadusta)on useinongelma,varsinkinjostallenteeton tehty kymmeniävuosiasitten tai kontrolloimattomissaolosuhteissa.

! Tallenneformaattienyhteensopivuusrajoittaaeri tietokantojenyhteis-käyttöä.TKK:n QuickSig-järjestelmässäon päästypoikkeukselliseenmonipuolisuuteen,mutta tulevaisuudenhaasteenaon yhtenäinenfor-maattiesim.XML-pohjaisena.

! Eri sovellustenjakäyttötarkoitustenasettamattavoitteetja vaatimuksetovat useinhyvin erisuuntaisia,josta syystäon erittäin vaikeapäästätietokantojenlaajaanyleiskäytettävyyteen.

! Analyysi- ja sovellusohjelmienkirjavuusvaikeuttaatiedonanalyysiäja sovellustenkehittämistä.Monetakateemisestikehitetyt,sinänsähy-vätkin ohjelmistotovathuonostidokumentoitujaja teknisestituettuja.

Page 39: Puheentutkimuksen resurssit Suomessaettä ihminen voi välittää tietoa sisäisistä tarpeistaan ja ulkoisesta olemukses-taan organisoimalla liikkeeseen ilman molekyylejä keuhkojen

A. Asiantuntija-arviot 39

! Puhetiedonhakuja käyttöverkonyli on rajoittunutta.Mm. juridisetjatietoturvakysymyksetrajoittavat tätäteknistenongelmienlisäksi.CD-ROM alkaaolla kapasiteetiltaanaivanriittämätönmonientietokanto-jen jakeluun.DVD-levy on tuomassatähänosittaistaratkaisua,muttasekinonvarsinrajoittunutsuurimpientietokantojenosalta,joihin pää-sy verkon yli olisi käyttökelpoisinratkaisu.Tiedonsiirtokapasiteetinrajoituksetovat tällöin helpostiongelmana.

! Multimodaalisuuden(audiovisuaalisuuden)vaatimustulisi ottaahuo-mioonyhäuseammin,varsinkinjosonnähtävissä,ettätulevaisuudessamyöskuvallineninformaatio(video,pysäytyskuvat)onhyödyksi.

Ei-teknisiähaasteitapuhetietokantatyölle

! Tietosuojakysymyksetja käyttöoikeuksienrajoituksetvoivat olla var-sinkin verkkopohjaisissaratkaisuissajopa isompi ongelmakuin tek-nisetkysymykset.Juridisetja kaupallisetkäyttörajoitukset,käyttäjänautentikointi, käyttölupienorganisointi,sopimustekniikatjne. voivattehdätietokantojenkäytönja jakelunhyvinkin hankalaksi.

! Toinenei puhtaastitekninenperuskysymysonkustannukset.Perustut-kimukseentarkoitettujenaineistojentulisi olla ilmaisiatai hyvinhalpo-ja käyttäjilleen.Kaupallisiinsovelluksiin voidaanhyväksyämaksulli-suus,muttamonestitäälläkinkorkeahintaonkäyttöärajoittava tekijä.Yleishyödyllistentietokantojenja -järjestelmienkehittämisellepitäisisaadariittävästi tukea,ja tämäntyön luonnetutkimukseninfrastruk-tuurin kehittämisenäja kielikultturitekijänätulisi ymmärtää.

Puhetietokantojenkehitystavoitteita

! Tulee voimakkaastipyrkiä yhtenäiseenmutta laajennetavaan tiedonesitysformaattiin.Oliopohjainenkone-esittäminenja XML tietokanta-dokumenttientallenneformaattinaon selvästisuuntauksena,johonol-laan joka tapauksessamenossa.Ihanteellistaolisi saadaaikaankan-sainvälisiä yhteisformaatteja,muttaniin, ettäneeivät rajoittaisi kehi-tystä jatkossakaan.Kun käytetään(perinteisiä)erityisformaatteja,neolisi voitava muuntaatoisikseentai ainakin johonkin yleiseenmuo-toon.

! Tietokantojenesitysformaatintulisi salliaeri mediat(audio,kuva, vi-deo, jne.) puheenlisäksi. Tietokanta-aineistontulisi mielelläänollaselattavissatavallisilla www-selaimilla ja käytettävissäperusosiltaanmyösohjelmistoilla,jotka eivät tunnekehittyneitäesitysformaatteja.

! Puhekantakorpustentulisi olla saatavilla tapauksestariippuenjokover-kon yli tai erillisinä tallennedokumentteina(CD-ROM, DVD) tai mo-lemmissamuodoissa.Sekäverkkoon keskitetylleettäerillisvälineilläjaettavallekorpusaineistolleon käyttöä.

Page 40: Puheentutkimuksen resurssit Suomessaettä ihminen voi välittää tietoa sisäisistä tarpeistaan ja ulkoisesta olemukses-taan organisoimalla liikkeeseen ilman molekyylejä keuhkojen

40 PuheentutkimuksenresurssitSuomessa

! Tulee kehittäävalikko-ohjattujatai helposti skriptattavia hakuohjel-mia,esimerkiksiwww-selaintenpohjalle.Vaativaankäyttööntulisi ol-la ohjelmoitav(i)a hakukone(ita)tai -kieli(ä). Verkon yli käyttäjille tu-leetaatanopeahakuja tietokannoilletuleeolla riittävästi tallennuska-pasitettia.

! Tietokantajärjestelmiäja -ohjelmistojatuleekehittääkorkeantasonesi-tysformalismejakäyttäviksi,jolloin esimerkiksitiedonhakumonipuo-listuu ja nopeutuu.Puhetiedonvisualisointiatuleekehittää.

! Tietosuoja-ja tekijänoikeuskäytäntöätulee kehittää.Tavoitteenaonmaksimaalisenavoin pääsytietokantoihinpieninkustannuksin,ottaenkuitenkinhuomioonjuridisetja kaupallisetrajoitukset.

! Suomenkielenerityispiirteetja asemapienenäkielialueenatuleeottaahuomioon.Kielen tulevaisuudenkannaltasekäkultuurisestiettätekni-sessämielessäon tärkeää,ettäsille on riittävä tuki, vaikkasuomisekätieteenettätekniikanmaailmassaonkin ehkävain marginaalinenteki-jä.

Page 41: Puheentutkimuksen resurssit Suomessaettä ihminen voi välittää tietoa sisäisistä tarpeistaan ja ulkoisesta olemukses-taan organisoimalla liikkeeseen ilman molekyylejä keuhkojen

B. Vastaukset 41

B Vastaukset

B.1 Akustiikan ja äänenkäsittel ytekniikan laboratorio (TKK)

Akustiikan ja äänenkäsittelytekniikanlaboratorio,joka kuuluu Teknillisenkorkeakoulun sähkö-ja tietoliikennetekniikanosastoon,on ainoayksikköSuomessa,jonkaensisijaisenatehtävänäon akustiikanja äänenkäsittelytek-niikan tutkimusja korkein opetus.Laboratoriollaon käytössäänmaanpar-haatakustisettutkimustilat.LaboratorionjohtajaonprofessoriMatti Karja-lainen. Laboratoriossatyöskentelee26 henkilöä,joista puheentutkimuksenparissatoimii 9 tutkijaa.Virkasuhteessaon3 henkilöä,muutovatprojektitut-kijoita. RahoitustuleeSuomenAkatemian,Tekesinja teollisuudentutkimus-rahoituksesta.Tutkimuksentavoitteenaon luodatietoaja osaamista,joka onsovellettavissateknisiintarkoituksiin,puheenkäsittelytekniikkaan.

Tutkimustoimintakäsittääesimerkiksidigitaalisensignaalinkäsittelynsovel-lukset akustiikassaja audiotekniikassa,puheenkäsittelyssäja musiikkitek-nologiassa.Vahvoja osa-alueitaovat kuuloonja psykoakustiikkaanliittyvätteknisetkysymykset,puhekommunikaationakustiikka,musiikkiteknologi-aanliittyvä akustiikkaja sähköakustiikanalueet,kutenkaiutintekniikkasekäakustisetja audiomittaukset.Suuriaääniteknologianalueitaovat akustiikka(sähkö-,huone-,kone-ja psykoakustiikkasekämelu),puhe(GSM,puhesyn-teesi,puheenkoodaus,puheentunnistus,verkkopuhe,puheanalyysisekälää-ketieteellisetsovellukset),signaalinkäsittely(signaalinkäsittely-ympäristöt,signaaliprosessoritja algoritmit) sekäaudio (3D-ääni, virtuaaliakustiikka,verkkoaudio,audiokoodaus,multimediaäänijamusiikkiteknologia).Puheen-tutkimuskuuluusitenakustiikanalaan;puhettatutkitaansignaalinkäsittely-tekniikan,puheenanalyysin,puhesynteesin,puheentunnistuksenja puhetie-tokantatekniikannäkökulmasta.On huomattava,ettäpuheon vain yksi osa-sektoriääniteknologianalantutkimuksessa.

Akustiikanjaäänenkäsittelytekniikanlaboratorionkeskeisistätutkimusalueis-ta akustiikkatarkoittaa äänisignaalintieteellistätutkimustaja siihen liitty-viä teknisiäsovelluksia,audiotarkoittaamielivaltaisiinkuultaviin signaalei-hin liittyvää laajakaistaistaääniteknologiaa,puheteknologiakeskittyy ihmi-sentuottamaanääneenja kieleenliittyviin sovelluksiin, ja signaalinkäsittelyonmetodologinenviitekehysnäidensovellustentutkimiselleja rakentamisel-le. Innovaatiot,erityisestimulti-mediaanliittyvät sovellukset,syntyvätvaintutkimuksessa,jossaedellämainitutosa-alueetintegroidaankokonaisuudek-si. Langaton,ääneenperustuva telekommunikaatio,ääntäsisältävätinternet-

Page 42: Puheentutkimuksen resurssit Suomessaettä ihminen voi välittää tietoa sisäisistä tarpeistaan ja ulkoisesta olemukses-taan organisoimalla liikkeeseen ilman molekyylejä keuhkojen

42 PuheentutkimuksenresurssitSuomessa

pohjaisetmultimediasovellukset(jotka yhdistävätääntäja esimerkiksiku-vaa),muutesitysformaatit(CD-levykkeetja DVD-levyt) sekäinnovatiivisetaudioteknologiat(esimerkiksikolmiulotteisenäänenuudettekniikat) muo-dostavat tärkeän,yhäkasvavanosantietoyhteiskunnanuusistateknologiois-ta.Akustiikanja äänenkäsittelytekniikanlaboratoriossaharjoitettavaäänitek-nologiantutkimusonomaltaosaltaanvauhdittanutkaupallisestierittäinmer-kittävien käytännönsovellustensyntymistä:esimerkiksiGenelecOy, jollaon tutkimusyhteistyötälaboratorionkanssa(esimerkiksivärähtelynja äänenhallinnantutkimushankkeessaVÄRE),onkaiutintekniikassamaailmanhuip-puluokkaa.

Audiotutkimuson ollut akustiikanja äänenkäsittelytekniikanlaboratorios-sa1990-luvullamenestyksekkäintutkimusalue.Aihepiiriin kuuluvatvirtuaa-linen akustiikka(virtuaalitodellisuudenakustinenmallintaminen),3D-ääni(spatiaalisenäänentuottamisentekniikat),musiikkiakustiikka(mallipohjai-nenäänisynteesi),audiokoodaussekämultimediasovellukset.Puheeseenliit-tyvä tutkimussisältääteemoinaanpuhesynteesin(tekstingeneroiminenpu-heeksi),automaattisenpuheentunnistuksen,puheanalyysin(puhesignaalienmallipohjainenja piirrepohjainenanalyysi),ihmisenpuheentuottomekanis-min mallintamisenparametrienavulla, puheenkoodauksenja siirrettävänpu-hesignaalinlaadunparantamisen,puhetietokantojenkehitystyön,puheenai-voissatapahtuvan prosessoinninmallintamisensekäsovellustenkehittämi-senesimerkiksifoniatriaaja vammaisteknologiaavarten.Akustiikan tutki-muksellaontärkeitäkäytännönsovelluksia,jotka liittyvät esimerkiksikonei-siin, huoneisiinja kaiuttimiin. Tutkimusalueitaovat akustistenjärjestelmienyleinenlaskennallinenmallinnus(tietokoneellasuoritettavanumeraalinensi-mulaatio),huoneidenakustiikanlaskennallinenmallinnus,aktiivinenmelunkontrollointi (melunvähentäminenelektronistenjärjestelmienavulla), akus-tisetmittaustekniikatsekäpsykoakustiikanja kuulonmallinnus.Signaalinkä-sittelynavulla luodaanaudio-ja puheteknologiansovelluksia,muttadigitaa-lista signaalinkäsittelyätutkitaanmyös omanaalueenaan.Tutkimuskohtei-ta ovat digitaalisetfiltterit, perkeptuaalisestisuuntautunutsignaalinkäsittelysekäohjelmistojenkehitys puhe-ja äänisovelluksiavarten.Kaiken kaikki-aanakustiikanja äänenkäsittelytekniikanlaboratoriossaharjoitettavassatut-kimuksessayhdistyvättietämysakustiikasta,äänestäja puheestaja kehitty-nyt digitaalinensignaalinkäsittely.

Tärkeimpiätutkimusalueitavuonna2002tulevatolemaanvirtuaalinenakus-tiikka ja spatiaalinenääni (näillä on sovelluksia esimerkiksimultimedias-sa ja kotiteatterijärjestelmissä),kognitiiviset ihmiseenliittyvät tekijät ääni-ja puheteknologiassa(tähänliittyvät psykoakustiikanja äänenlaaduntutki-mussekäaivotutkimus),kielispesifinpuheteknologiankehittäminensuomenkielelle sekäspesifitsignaalinkäsittelytekniikat.Koskalineaariset,ajansuh-teenmuuttumattomatsignaalinkäsittelytekniikathallitaannykyisin jo täysin,adaptiiviset,ajansuhteenmuuttuvatei-lineaarisetalgoritmit tulevatolemaanyksi tutkimuksenpainopistealue.Puheentutkimuson luonteeltaanpoikkitie-teellistä,ja yhteistyömuidentieteenalojenkanssatulee lisääntymään.Tär-keimmätyhteistyöalueetovat fonetiikka,foniatriaja kognitiivinenaivotutki-mus.Aikaisemminyhteistyöeri tieteenalojenvälillä oli niukempaaja rajoit-tui perustutkimukseen.Tulevaisuudessapoikkitieteellinenlähestyminenon

Page 43: Puheentutkimuksen resurssit Suomessaettä ihminen voi välittää tietoa sisäisistä tarpeistaan ja ulkoisesta olemukses-taan organisoimalla liikkeeseen ilman molekyylejä keuhkojen

B. Vastaukset 43

yleisempäämyössoveltavassapuheentutkimuksessa.

Laboratoriossaon käytössäSuomenolosuhteissaainutlaatuiseterikoistilat:kolmekaiutontahuonetta,yksi kaiuntahuoneja yksi kuunteluhuone.Käytös-säon palvelinkoneja yksi PC- tai Mac-työasematutkijaakohdensekänoinkymmenenkonettayleiskäyttöön.Lisäksi akustiikanyleistutkimustavartenon erikoislaitteitasekäaudioteknisiälaitteita (DAT-nauhurit,mikserit,mik-rofonit, vahvistimet).Lisäksiuseimmattutkijat käyttävätsäännöllisestiMat-lab-ohjelmistoa;vähäisemmässäkäytössäon Mathematica-ohjelmisto.Ta-vanomaisiatutkimuksenja dokumentoinninohjelmistojaovatMS Office,La-TeX, AdobeIllustrator, Photoshopja Acrobat.

PuheentutkimuksessakäytetäänlaboratoriossakehitettyäQuickSig-puhetie-tokantajärjestelmää.Järjestelmäon kehitettyyhteistyössäHelsinginyliopis-ton fonetiikanlaitoksenkanssa.JärjestelmäontoteutettuMacintoshinCLOS(CommonLisp ObjectSystem)-ohjelmointikielellä.QuickSig-puhetietokan-tajärjestelmäon kehitetty puheentutkimuksenyleiskäyttöön,vaikka tekni-senpuheenkäsittelyntarpeetovatkin selvästietualalla.Puhetietokantajärjes-telmänperusominaisuuson monipuolinen,poikkeuksellisenkorkeatasoinenesitysformalismi.TässäsuhteessaQuickSig onkin ainutlaatuinen:sitä voi-daanperustellustipitääpuheinformaationesittämisenja mallintamisenkan-naltaparhaanasaatavilla olevanapuhetietokantajärjestelmänä.Järjestelmänhaittapuolenavoi pitää sitä, että järjestelmäntehokaskäyttö edellyttääoh-jelmointitaitoja,mikä rajoittaapuhetietokannankäytettävyyttäulkopuolisis-satutkimusyksiköissä.QuickSig-puhetietokantajärjestelmäävoidaantoistai-seksikäyttääsuhteellisenrajatunpuhekorpusjoukontutkimukseen.Suomen-kielisenpuhekorpuksenlisäksi(ks.seuraavakappale)QuickSig-ohjelmistol-lavoidaankäsitelläTIMIT, ANDOLS jaKiel puhekorpuksia.Toistaiseksitie-tokantajärjestelmänkehittäminen,korkeatasoisenesitysformalisminlaatimi-nenja hakutekniikoidenkehitystyöonollut tärkeämpääkuin korpusaineistonlaajentaminen.

Suomenkielinenpuhekorpus(ks. 49) on laadultaanerittäin korkeatasoinen.Aineistoon äänitettykaiuttomassatilassa(tai hyvässäakustiikassa)korkea-laatuisinlaittein,muttaseon kooltaantäysinriittämätön.Materiaalion huo-lellisesti lausuttuasana-ja lauseaineistoa.Käytetyin osapuhetietokannastaon kahdenmiespuhujantuottama889 sanaakäsittäväaineisto,joka on fo-neettisesti(difonisesti)balansoitu.Frekventtiäsanastoasisältävänäaineisto-na materiaalion hyvä puhutunsuomenmallintamisenlähtökohta(erityisenhyvin se mahdollistaapuhutunsuomen»mikrorakenteiden»tutkimuksen).Aineisto, erityisestiperussanasto,on huolellisestisegmentoituja annotoitumanuaalisesti.Mukanaonmyösoheistietoa(esimerkiksiF0-funktio).Aineis-to on Teknillisenkorkeakoulun ja Helsinginyliopiston yhteiskäytössä,eikäsiihenliity tavanomaistentekijänoikeusehtojenlisäksimuitarajoitteita.Sup-peanaaineistonaseei kuitenkaanole verrattavissalaajoihin kansainvälisiinpuhekorpuksiin.

Useillapuheentutkimuksenaloilla, erityisestipuheentunnistuksentutkimuk-sessa,puhetietokannoillaonaivankeskeinenrooli, koskatietokannoistasaa-tua tietoa voidaankäyttääpuheentunnistimenopettamiseen(training). Esi-merkiksiakustiikanjaäänenkäsittelytekniikanlaboratorionPUTTEPUH-pro-

Page 44: Puheentutkimuksen resurssit Suomessaettä ihminen voi välittää tietoa sisäisistä tarpeistaan ja ulkoisesta olemukses-taan organisoimalla liikkeeseen ilman molekyylejä keuhkojen

44 PuheentutkimuksenresurssitSuomessa

jekti (puheestatekstiksi,tekstistäpuheeksi)edustaapuheentunnistustaja pu-hesynteesiä,joka perustuupuhetietokantatutkimukseen.

Varsinkinperustutkimuksessaon puheentutkimuksenalueita,joissapuhetie-tokannoillaei ole juurikaankäyttöä.Josesimerkiksianalysoidaanihmisenpuheentuottomekanismintoimintaa,äänimateriaalionkerättäväkulloisenkintutkimusasetelmanvaatimustenmukaisesti,eikä tutkimusaineistoavoida la-dataolemassaolevista tietokannoista.Näille tutkimusasetelmilleon lisäksityypillistä se,ettätutkittavastailmiöstä tarvitaanvarsinaisenpuhettakuvaa-van aaltomuodonohellamuitakin informaatiosignaaleja(esimerkiksielekt-roglottografiaja subglottaalinenpaine).On epätodennäköistä,ettäpuhetie-tokannattarjoaisivat tällaisiaharvinaisiapuheentuottamiseenliittyviä infor-maatiosignaalejatutkijankäyttöön.Onsiis toivottavaa,ettäpuheentutkimuk-senresurssienmahdollisenlisäämisenmyötäei rajoituttaisivain puhetieto-kantojenkehitystyöhön,vaanalankehittäminennähtäisiinlaajempana,poik-kitieteellisenähankkeena,jonkaavulla tuetaanpuheenperustutkimusta.

Akustiikan ja äänenkäsittelytekniikanlaboratorionrooli suomenkieltä kos-kevassapuheentutkimuksessaliittyy tulevaisuudessakintekniseenkehitys-työhön,jolla luodaanuusiateknologioitapuhetiedonesittämistäja käsittelyävarten.

B.2 Digitaali- ja tietok onetekniikan laitos (TTKK)

Tampereenteknillisenkorkeakoulun digitaali- ja tietokonetekniikanlaitok-senjohtajaon professoriJukka Saarinen. Yksikkö on toiminut signaalin-käsittelynlaitoksestaerotettunaomanalaitoksenaanvuoden2000alustaal-kaen.Tällä hetkellä laitoksella työskentelee150 työntekijää,joista suurinosatoimii tutkijoina tai tutkimusapulaisinaperustutkimuksensekäkäytän-nön sovellustenparissa.Puheentutkimuksenparissadigitaali- ja tietokone-tekniikanlaitoksellatyöskenteleeyhteensä9 tutkijaa,jotka kuuluvatoppiviajärjestelmiäja datafuusiotatutkivaanryhmään(LearningSystemsandDataFusionGroup):5 henkilöätutkii puheentunnistukseenliittyvää akustistamal-linnusta,2 henkilöätutkii puheentunnistustapuhelinpalvelujensovelluksiennäkökulmastaja 2 henkilöätutkii matalanbittinopeudenpuheenkoodausta.Tutkimusalaon sitensignaalinkäsittely, erityisestipuheentunnistusja -koo-daus.Puheentutkimuksenparissatyöskentelevä henkilöstöon palkattumää-räaikaisintyösopimuksin.Kaikki työsuhteetkuuluvatUSIX-teknologiahank-keenosaprojektienrahoituksenpiiriin; lisäksirahoitustatuleeSuomenAka-temianprojekti- ja tutkijakoulurahoituksesta,yliopiston perusrahoituksestasekäyritysrahoituksesta.

Laitoksentutkimustoimintaliittyy monikieliseenpuheentunnistukseen,jos-sa suomenkieli on osana.Tavoitteenaon löytää menetelmä,jolla saadaankompaktiesitysmonikielisenpuheentunnistuksenmahdollistaville akustisil-lemalleille.Puheenkoodauksentutkimuksessatavoitteenaonlöytääkoodaus-menetelmät,jotka säilyttävätpuhesignaalinlaadunhyvänämatalillabittino-peuksilla.

Monikielistenpuheentunnistussovellustenkehittäminenonvaikeaa,koskaeri

Page 45: Puheentutkimuksen resurssit Suomessaettä ihminen voi välittää tietoa sisäisistä tarpeistaan ja ulkoisesta olemukses-taan organisoimalla liikkeeseen ilman molekyylejä keuhkojen

B. Vastaukset 45

kielissäkäytetäänkielikohtaisia(»fonologisoituneita»)foneemejakuvaamaansanoissaesiintyviääänteitä.Puheentunnistuksenkannaltatämätarkoittaasi-tä, että kustakin kielestäon välttämätöntäkerätäsuuria puhetietokantoja,jotta monikielisenpuheentunnistimenkehittäminenolisi mahdollista.Tieto-kantojenkerääminenlisäähuomattavasti puheentunnistussovellustenkehit-tämiseenkuluvaaaikaaja lisääkustannuksia.Yksi tapahelpottaaja nopeut-taamonikielistenpuheentunnistussovellustenkehitystyötäon siirtyä käyttä-määnuniversaaliafoneemijoukkoa, joka kattaakaikki tutkimuksenkohtee-na olevat kielet. Tässäjoukossajokainenuniversaalifoneemipyrkii kuvaa-maaneri kieltensamankaltaisetäänteetyhtenäfoneemina.Universaalifonee-mien joukko vähentäätätentunnistimenkompleksisuutta,jolloin monikie-listenpuheentunnistussovellustenkehittäminenesimerkiksimatkapuhelimiavartenhelpottuuhuomattavasti.

Vuoden2000 aikanadigitaali- ja tietokonetekniikanlaitoksellakehitettiinmonikielinenpuheentunnistin,jokakattaasuomen,saksan,englannin,espan-jan ja italian kielet.Tämämonikielinenpuheentunnistinperustuu64 univer-saaliinfoneemiin,jotka on muodostettumainittujenkielten219kielikohtai-sestafoneemista.Vuoden2001aikanatutkimussuuntautuuuusienryhmit-telymenetelmienkehittelyyn,joidenavulla kielikohtaisetfoneemitvoitaisiinryhmitelläparemminuniversaalienfoneemienluokkiin.

Digitaalisenlangattomanviestinnänkasvaessavoimakkaastionsyntynyt tar-ve matalillabittinopeuksillatoimiville, hyvänäänenlaaduntuottaville puhe-koodekeille. Monissasovelluksissa,kuten satelliittipuhelinjärjestelmissäjamatkapuhelinjärjestelmienpuolennopeudensiirtokanavissa,kiinteän puhe-linverkontarjoamapuheenlaatutulisi saavuttaaoleellisestinykyistämatalam-malla bittinopeudella.Yksi lupaavimmista matalanbittinopeudenpuheen-koodausmenetelmistäon WaveformInterpolation(WI) -koodaus.Digitaali-ja tietokonetekniikanlaitoksellaon tutkittu WI-koodaustajo useanvuodenajan.Tutkimuksessaon havaittu sekäkoodekinperusrakenteenettäkvanti-sointilohkojenvaativanlisääkehitystyötä,jottatavoitteenaolevaäänenlaaduntasovoidaansaavuttaa.Vuoden2000aikanalaitoksellakehiteltiin uusiame-netelmiäpuhesignaalintehokkaaseenmallintamiseenja kvantisointiin:mal-linnustamuutettiin siten,että alkuperäinenpuhesignaalipystytäännyt pa-lauttamaanpuhesignaaliakuvaavastapinnasta.Näin mallinnuksenaiheutta-mia virheitä pystytäännyt korjaamaankvantisointivaiheessa.Vuonna2001jatketaanedelleenmenetelmienkehittelyä.Uusi mallinnusmenetelmämah-dollistaneeaivanuudenlaistenkvantisointimenetelmienkäytön.Kvantisoin-nissatutkimuskohdistetaanerityisestipuheenjaksollistenkomponenttienen-tistä tehokkaampaankoodaukseen.Lisäksi uutenaalueenatutkitaanerittäinalhaisellabittinopeudellatapahtuvaapuheenkoodausta.

Teleoperaattoreidentarjoamiauusiamultimediapalveluita tarjotaankäyttä-jälle eri tavoin, ja samahenkilö saattaakäyttääpalveluaeri tavoin riippuenkulloisestakintilanteesta.Yhtenäuutenakäyttöliittymänänähdäänpuheoh-jaus,jossakäyttäjäohjaapalveluapuhekomennoilla.Tätävartentarvitaanpu-heentunnistin,joka on räätälöityoperaattorinpalvelimeensopivaksi toimin-nalliseksikokonaisuudeksi.Tutkimusprojektissaonalkukartoituksenjälkeenedettyääniportaalinprototyypintoteutukseen.Ääniportaalisisältääpuheoh-

Page 46: Puheentutkimuksen resurssit Suomessaettä ihminen voi välittää tietoa sisäisistä tarpeistaan ja ulkoisesta olemukses-taan organisoimalla liikkeeseen ilman molekyylejä keuhkojen

46 PuheentutkimuksenresurssitSuomessa

jattuja palveluita. Palveluita voidaankäyttääsekäpuhelimenettä internet-selaimenavulla.

Vuonna2000laitoksellatehtiin perusteellinenesiselvitys,jossakartoitettiinmaailmaltalöytyviä puheentunnistusmoottoreitaja niidenavulla toteutettujapuhelinoperaattorienkäyttämiäpalveluita.SelvityksessäesiteltiinuseitaEu-roopassaja muuallamaailmassapuhelinoperaattoreillaja suurissayrityksis-säkäytössäolevia puheentunnistustakäyttäviäpalveluita(esimerkiksipuhe-luavustajatja informaatiohakupalvelut).Lisäksiesiteltiinkenttätestejä,jois-saoli testattutodellisiapuheentunnistusjärjestelmiä.Vuoden2001aikanata-voitteenaontoteuttaaprototyyppiääniohjatustapuhelinpalvelujärjestelmästäPC-ympäristössä,johonvoi liittyä sekäpuhelimenettäselaimenavulla.

TutkimuksessakäytetäänSpeechDat(II)-puhetietokantaa,jonkaomistaaTam-pereenteknillisenkorkeakoulun signaalinkäsittelynlaitos (ks. 46). Speech-Dat(II)-puhetietokantasoveltuulaitoksentutkimuskäyttöönhyvin,eikätutki-musryhmälläole tarvettakäyttäämuidentahojenpuhetietokantoja.Optimaa-lisin puhetietokantaolisi LearningSystemsandDataFusion-tutkimusryh-männäkökulmastaSpeechDat(II):nkaltainentietokanta,jokasisältäisimyösaikainformaationfoneemitasolla.

Digitaali- ja tietokonetekniikanlaitoksellatutkimustatehdäännormaaleissatyöhuoneissa,joissajokaisellatyöntekijälläon käytössääntehokasHP-Unixtai PC-työasema.Käytössäolevat HP-Unix-työasematovat pääosinB2000-ja C3000-työasemia,joiden käyttöjärjestelmäon HP-UX (v. 10.20).Levy-tilaa on 100 gigatavua. Käytössäolevat PC-työasematovat prosessoritaa-juudeltaan400–800MHz ja muistiltaan64–512megatavua.Käyttöjärjestel-mänäPC-työasemissaon Windows NT 4.0 tai Linux. Puheentunnistuksessakäytetäänpääasiassavapaastisaatavilla olevaaHiddenMarkov Model Tool-kit (HTK) -ohjelmistoa.PuheenkoodauksessakäytetäänC-kielellätehtyäoh-jelmistopakettia.LisäksipuheentunnistuksenpuhelinpalvelujensovelluksientutkimuksessakäytetäänIBM:ltä vapaastisaatavia sovelluskehitystyökaluja.

B.3 Digitaalisen median instituutti (TTKK)

Digitaalisenmedianinstituutti (Digital Media Institute,DMI) on itsenäinentutkimusyksikköTampereenteknillisessäkorkeakoulussa.Yksikössäharjoi-tetaanmonitieteistätutkimustadigitaalisenmedianalalla: ydinalueenaonääneen,kuvaan,videokuvaanja biolääketieteellisiinilmiöihin liittyvien sig-naalinprosessointialgoritmientutkimus.DMI:n audiosignaalintutkimusryh-mä(Audio ResearchGroup,ARG) ja signaalinprosessoinninlaboratoriotoi-mivat osanasignaalinkäsittelynlaitosta,jonka johtajaon professoriJaakkoAstola. ARG:n johtajanatoimii Jari Yli-Hietanen. Tampereenteknillisenkorkeakoulunsignaalinkäsittelynlaitoksenja digitaali- ja tietokonetekniikanlaitoksentutkijoistasuuriosakuuluuDigitaalisenmedianinstituuttiin.ARG-ryhmässätyöskentelee22tutkijaa,joistapuheentutkimuksenparissatyösken-telee7 henkilöä.Työsuhteetovat määräaikaisia;rahoituslähteinäovat No-kian tutkimuskeskus,Alma Media,Tekes,USIX, EU ja SuomenAkatemia.ARG:n tavoitteenaon tutkia audiosignaalinsisällönymmärtämistä;lopulli-

Page 47: Puheentutkimuksen resurssit Suomessaettä ihminen voi välittää tietoa sisäisistä tarpeistaan ja ulkoisesta olemukses-taan organisoimalla liikkeeseen ilman molekyylejä keuhkojen

B. Vastaukset 47

nentavoitte on kehittääkeinotekoinenkuulojärjestelmä.Tutkimuskeskittyykäytännössäälykkäisiin audiosignaalinprosessointimenetelmiin,jotka otta-vathuomioontavan,jolla ihminenhavaitseeääntäja puhetta.ARG jakaantuukolmeenosaryhmään,joissatutkitaanpuhetta,musiikkia ja vastaanotettujensignaalienspatiaalistarakennetta.

Kehitettävätteknologiatliittyvät telekommunikaatioon:laitteistojaja ohjel-mistojakehitetäänerityisestimultimediantarpeitavarten.DMI sisältääseu-raavat tutkimuslaboratoriot:signaalinprosessoinninlaboratorio,digitaalistenja tietokonejärjestelmienlaboratorio,ohjelmistojärjestelmienlaboratorio,te-lekommunikaatiolaboratorio,hypermedialaboratorio,informaatioteknologianlaboratorio(Porissa)sekäelektroniikaninstituutti.Digitaalisenmedianinsti-tuutissatyöskenteleenoin 400tutkijaayhteensäsadassaeri projektissa.Val-taosarahoituksestatuleeSuomenAkatemianja EU:n tutkimusrahoituksesta;soveltavantutkimuksenrahoitustuleelisäksiosittainyrityksiltä, joidenkans-sateknologioitakehitetään.

Puheentutkimuksessakeskitytäännykyisin monikieliseenpuheentunnistuk-seenpuhetietokantojahyödyntäen.Suomenkielistäpuheentunnistustakehite-tääntiedonhaunja indeksoinnintarpeisiin;tutkimuksessaon erityisestimu-kanaaudiovisuaalinenpuheen-ja puhujantunnistus.

Vuonna1998hyödynnettiinlaajaaSpeechDat(II)-projektinyhteydessäkerät-tyä tuhannensuomenkielisennumeroitasisältävänlausumanaineistoakehi-tettäessäsuomenkielisessäpuheessaesiintyviennumeroidentunnistinta(Mat-labImplementationof aFinnishDigit RecognizerusingHiddenMarkov Mo-dels).Samallakerättiin ja dokumentoitiinMatlab-funktioitasekäluotiin kir-jallisuuskatsausjatkuvanpuheentunnistamiseenliittyviin malleihinja tekno-logioihin. Suomenkielisenpuheentunnistimentunnistustarkkuusoli yli 92%(sekäharjoitusaineistossaettätestiaineistossa).

SpeechDat(II)-puhetietokantaon kerättykiinteänpuhelinverkon välityksellätelepalveluidenautomatisointiavarten(aineistoon kerätty lankapuhelinyh-teyksistä koti-, toimisto- ja puhelinkoppiympäristöissä).SpeechDat(II)oneurooppalainenpuheteknologianyhteishanke,jonkaavulla onkerätty20pu-hetietokantaa14maastaEuroopassa(tavoitteenaonpuhuttuunkieleenperus-tuvien telepalveluidenluominen,standardointija levitys). Kaikkien kieltenosaltatietokantaon kerättysamallaperiaatteella.Tietokantakoostuukussa-kin kielessäsanoistaja lauseista(lausumista).Aineistonaovat telepalveluis-sa yleisestikäytettävätfraasit, spontaanitkyllä-ei -kysymykset,päivämää-rät,ajankohdat,numeroyhdistelmät,rahasummat,kaupunkienja yritystenni-met, erisnimetsekämahdollisimmanerilaisia foneemejasisältävätsanatjalauseet.Puhujatovatuseastaikäryhmästä(ikä alle16,16-30,31-45,46-60jayli 60 vuotta) ja edustavat eri murrealueitaja maantieteellisiäalueita(Suo-messaTurku, Häme,Kymi, Vaasa,Oulu, Uusimaa,Pohjois-Karjala,Keski-Suomi,Mikkeli, Lappi,Kuopio ja Ahvenanmaa).Nauhoitukseton tehtytie-tokoneenja ISDN-yhteydenavulla. SpeechDat(II)Finnish Databasepuhe-tietokannanomistaaTampereenteknillisenkorkeakoulunsignaalinkäsittelynlaitos.

SpeechDat(II)FinnishDatabase-puhetietokantasisältääyhteensä300 tun-

Page 48: Puheentutkimuksen resurssit Suomessaettä ihminen voi välittää tietoa sisäisistä tarpeistaan ja ulkoisesta olemukses-taan organisoimalla liikkeeseen ilman molekyylejä keuhkojen

48 PuheentutkimuksenresurssitSuomessa

tia puhesignaalia,jonkatuottajinaoli 4000suomenkielistäpuhujaa.Aineistoon digitaalisessamuodossarompuilla (yhteensä14 romppua,jotka noudat-tavat ISO9660-formaattia).Audiotiedostoton tallennettu8000 Hz:n näyt-teistystaajuudellakäyttäen8-bit A-LAW -formaattia.Jokaisellarompullaon300puheluaja vastaavat transkriptiotiedostot(ISO-8859-1-tekstinä);jokai-nenCD-ROM-levy sisältäälisäksihenkilöitäja puhelunajankohtaaja luon-nettakuvaavat tiedostot.Aineistonannotointion tehtyortografiantasollail-man segmentointia:kustakintallenteestaon tiedossavain sentranskriptio,johonei ole liitetty aikainformaatiotalauseiden,sanojentai foneemienalku-ja loppukohdista.Kohinaasisältävätja virheellisetkohdatsekäkohdat,jois-saei ole puhettatai seei ole ymmärrettävää,on annotoituerikoismerkein.Philipsin FreeSpeechViva, joka on ensimmäinensuomenkielelle kehitettyluonnollisenpuheentunnistusohjelma,on harjoitettuSpeechDat(II)FinnishDatabase-puhetietokannalla.Tutkimustapahtuupääosindigitaalisestitieto-koneidenavulla; nauhoituksiatehdääntarvittaessatutkimusryhmänkäytössäolevassavaimennetussaaudiolaboratoriossa.SovellusohjelmistoinakäytössäovatMatlab,HTK ja C++.

Tietokantaonsopivanykyisiäpuheentunnistukseenliittyviä tutkimustarpeitavarten.Muut puheentutkimustahotovat osoittaneetkiinnostustatietokantaakohtaan,muttatutkimuskäytönhintaon toistaiseksisopimatta.Tutkimusryh-mätarvitsisi toisaaltakäyttöönsälaajanaudiovisuaalisentietokannan,koskaaudiovisuaalinenpuheentunnistusnouseetutkimuksenpainopistealueeksilä-hitulevaisuudessa.Tärkeimmät(kaupalliset)sovellukset,joita voidaanodot-taalähiaikoina ja joiden kehittelyssäDigitaalisenmedianinstituutti on mu-kana,ovatparempilaatuisetpuheentunnistimet,joita voidaankäyttääesimer-kiksi puhehaussajadialogijärjestelmissä(puhelinnumeronvalintapuheellajaaikataulujentiedustelujärjestelmät).Puheentutkimus(puheentunnistusja pu-heenkoodaus)tuleeolemaankasvavaala;DMI:n tutkimuspyrkii kehittämäänihmisenkanssavuorovaikutuksessatoimivia, entistäälykkäämpiäpuhetek-nologiajärjestelmiä.

B.4 Elisan tutkim uskeskus

Elisa-konsernintutkimuskeskus(Elisa CommunicationsResearchCenter,ECRC),jonka johtajaon professoriPauli Kuosmanen, harjoittaatutkimus-toimintaa,jonkatavoitteenaon luodauusiasovelluksiaja innovaatioitatele-viestinnänalueella.Puheentutkimuksenalueellapyritäänetsimäänja kehit-tämäänmahdollisuuksiasoveltaapuheen-ja puhujantunnistustaoperaattori-toiminnassa.Tutkimuskeskuksessatyöskentelee80 henkilöä,joistapuheen-tutkimuksenparissatoimii 5. TutkimuksessakäytetäänerityisestiIBM:n ViaVoice -ohjelmistoa.Tulevaisuudenvisioita ovat puheportaalitja hakusovel-lukset,jotka mahdollisestitoimivatmultimodaalisina.

Page 49: Puheentutkimuksen resurssit Suomessaettä ihminen voi välittää tietoa sisäisistä tarpeistaan ja ulkoisesta olemukses-taan organisoimalla liikkeeseen ilman molekyylejä keuhkojen

B. Vastaukset 49

B.5 Fonetiikan laitos (HY)

Helsingin yliopiston fonetiikan laitoksella tutkitaanfonetiikkaa,puhevies-tintääja logopediaa.Laitostavoidaanpitääkokonaisuudessaanpuheentutki-muslaitoksena.Laitoksenjohtajaon professoriAnu Klippi . Laitoksellaon22 henkilövirkaa(mukaanlukien tutkijat, puolipäiväinenamanuenssija toi-mistosihteeri)sekäyksi stipendiaatti.Fonetiikanoppiaineessaon professo-ri, lehtori,assistentti,puheteknologianlehtori(kolmevuotinenmääräaikainenvirka), kolme tutkijaa sekätutkimusavustajia.Puheviestinnänoppiaineessaonkaksilehtoriasekäpäätoiminentuntiopettaja.Logopedianoppiaineessaonprofessori,kolmelehtoria,kaksimääräaikaistalehtoria(kolmevuotisetmää-räykset),määräaikainenyliassistentti(viisivuotinenmääräys,päättyy2003),kaksi assistenttiasekätutkija. Lisäksi annetaantuntiopetusta.Yhteensälai-toksellatoimii 3 määräaikaistalehtoria,4 määräaikaistatutkijaa(rahoitusläh-teinäLangnet-tohtorikoulusekäUSIX-teknologiaohjelma)ja yksi Helsinginyliopistonapurahallatyöskentelevästipendiaatti.

Fonetiikanlaajojahankkeita ovat tällä hetkellä puheenprosodiantutkimus,lapsenäänteellisenkehityksentutkimus,suomenkielisenpuhetietokannanke-hitystyö,puheentyylien tutkimus,puhujantunnistuksentutkimussekävokaa-litutkimus.Puheenprosodianpiirteitä on tutkittu suomen,englannin,saksanja unkarinosalta.Myösalkoholinvaikutuksenalaisenaolevienpuhujienpro-sodiaaon tutkittu. Lapsenäänteellisenkehityksentutkimusliittyy 1995al-kaneeseentutkijakouluun,jonkateemaon lapsennormaalija poikkeavakie-lenkehitys (yhteistyötahoon Oulun yliopiston suomenja saamenkielen jalogopedianlaitos).

Puheentyylien tutkimustoteutuuvertailevanatutkimuksena,jossakartoite-taansuomen-,englannin-ja saksankielistenradio-, tv- ja elokuvaraporttienprosodianerojaja yhtäläisyyksiä.Myös vanhempaasuomenkielisenpuheentyyliä radio-, tv ja elokuvaraporteissaon verrattuuudempaanradio ja tv-tyyliin. Puhujantunnistuksentutkimusliittyy TekesinUSIX-ohjelmastara-hoitettavaankolmevuotiseen(2000–2002)suomenkielisenpuheteknologianyhteishankkeeseen(ks. 84). Vokaalitutkimuksenkohteita ovat esimerkiksivokaalipositionmääräytyminenF1/F2-formanttikartassa,psykofoneettinenF1/F2formanttikarttaja vokaalienprototyyppiensähköisetvasteetaivoissa.Forensinenpuhujantunnistuson ollut tutkimushanke fonetiikan laitoksella

vuodesta1984.TutkimustatehdäänyhteistyössäKeskusrikospoliisinkans-sa.Puhujastaja välitystekniikastariippuvaa puheenymmärrettävyyttätut-kitaan hankkeessa,johon Ilmailulaitostaja Finnairia on pyydetty mukaan;projekti on nyt osahankkeenaUSIX-ohjelmassa.Fonetiikanlaitoksenosuuspuheentunnistuksentutkimuksestasuomenkielisenpuheteknologianyhteis-hankkeessaon 44 %. Puhesynteesinosaltatutkimustaon tehty osittain ti-laustyönä:partnereitaovat olleet ruotsalaisetInfovox (vuosina1992–1993)ja Telia (syksyllä1999).Laitos osallistuuEU:n rahoittamaanCOST-hank-keeseen,jonkatavoite on kehittääpuhesynteesinlaatua.Suomenkielisenpu-heteknologianyhteishankkeenyhteydessälaitoksellakehitetäänpuheenpro-sodiikaanperustuvaasuomenkielistäpuhesynteesiä.

SuomenkielinenpuhetietokantakehitettiinalunperinTeknillisenkorkeakou-

Page 50: Puheentutkimuksen resurssit Suomessaettä ihminen voi välittää tietoa sisäisistä tarpeistaan ja ulkoisesta olemukses-taan organisoimalla liikkeeseen ilman molekyylejä keuhkojen

50 PuheentutkimuksenresurssitSuomessa

lun akustiikanja äänenkäsittelytekniikanlaboratoriossaautomaattisenpu-heentunnistuksentarpeisiin;nykyisin puhetietokantapalveleesekäfoneet-tista perustutkimustaettäsoveltavaateknologistatutkimusta.Laitos osallis-tuu myös toukokuussa2001 alkaneeseenINTAS-yhteishankkeeseen,jossakerätäänhollannin,suomenja venäjänspontaaninpuheenaineistoa.INTAS-hankkeennauhoituksettehdäänkesän2001aikana.

Fonetiikanlaitos on ollut kauanaktiivinen toimija puheteknologianalalla.Jo vuonna1970julkaistiin tutkimustietokoneellatapahtuvastaäännespekt-rien automaattisestatunnistamisesta,ja puhesynteesinkehitystyötäon tehtyyhteistyössäHelsinginyliopistonpsykologianlaitoksenkanssa1970-luvultalähtien.Fonetiikanopetusohjelmassaon ollut puhesynteesikurssikyseiseltävuosikymmeneltälähtien).Radiopuhelinliikenteenymmärrettävyystutkimusoli yhtenäpainopistealueena1980-luvulla.Renovata-selvityksenyhteydessä1994 kartoitettiin mahdollisuuttaperustaapuheteknologianopintolinja yh-dessäHelsinginyliopistontietojenkäsittelytieteenlaitoksenkanssa.Selvityk-senjälkeenpäädyttiinkuitenkin jatkamaanyhteistyötäTeknillisen korkea-koulun akustiikanja äänenkäsittelytekniikanlaboratorionkanssa(yhteistyöOtaniementutkimusyksiköidenkanssaalkoi 1980-luvunalussa);erityisenäpoikkitieteisenähankkeenaondigitaalitekniikkaanperustuvapuheenanalyy-si.Puheteknologiaankuuluvatkurssitonmainittufonetiikanlaitoksenyhtey-dessäHelsinginyliopiston humanistisentiedekunnanopinto-oppaassasyk-systä1995alkaen;syksystä1999alkaenfonetiikanopintovaatimuksissaonollut Puheteknologisetsovellukset-opintokokonaisuus.

Laitoksellaontutkimuskäytössädigitaalinensuomenkielinenpuhetietokanta,jokaonyhteinenTeknillisenkorkeakoulunakustiikanjaäänenkäsittelyteknii-kan laboratorionkanssa.Vuonna1993alkanuthanke on alallaanensimmäi-nentieteidenvälinenhankeSuomessa.Tietokantakoostuufoneettisestiedus-tavista irrallisistasanoista.Yksiköitä on 889kahdenmiespuhujantuottami-na,segmentointion tehtykäsin;foneettisestiedustavistairrallisistalauseista(yksiköitä on 117 kahdenpuhujan,miehenja naisen,tuottamina;segmen-tointi on tehty käsin),syntaktisestitasapainotetuistalauseista(yksiköitä on276 viiden miespuhujantuottamina;segmentointion tehty automaattisesti)ja foneettisestiedustavista lauseista(yksiköitäon 1126yhdenmiespuhujantuottamina;segmentointion tehtykäsin).Aineistoon annotoitumonellata-solla.

Suurimmassaosassaaineistoaonhierarkinenkuvaus,jossaonerotettutoisis-taaneri yksiköt,alkaenlauseen(ilmauksen)tasoltapäättyenfoneettisenseg-menttiin.Foneettinensegmenttion tässääänettäpitempiyksikkö,esimerkik-si klusiilit on segmentoituerillisiin sulkeuma-ja avovaiheisiin.Muut yleisetyksikötovatäänne-ja sanatasot,joissamolemmissavoi olla tyypiltäänerilai-setannotaatiot:äännetasollafoneettinentarke ja sanatasollamyösmorfolo-ginenanalyysi.Foneettisestiedustava lausejoukko sisältääsanatasollamyösmorfologisetanalyysit.

Annotaatioidenlisäksitietokantaanon tallennettuerilaisialaskentaavaativiarepresentaatioitasignaaleista(esimerkiksiperustaajuus-ja intensiteettikäy-rät).Aineistoon segmentoituäänne-,tavu- ja sanatasollaQuickSig-puhetie-tokantajärjestelmässäkäytettäväksi.QuickSig-puhetietokantajärjestelmässä

Page 51: Puheentutkimuksen resurssit Suomessaettä ihminen voi välittää tietoa sisäisistä tarpeistaan ja ulkoisesta olemukses-taan organisoimalla liikkeeseen ilman molekyylejä keuhkojen

B. Vastaukset 51

on mahdollistakäyttääeri tasojentietojaosoitteina,laskeaosoitteistatietojaja tehdätilastoja.Osoitteillavarustettujaaineistojavoidaanselaillaja analy-soidavarsinjoustavasti.

Lisäksi laitoksellaon puhetietokantoinayhdenpuhujantuottamaedustavaesityssuomenvokaaleista(DAT-nauhoitussisältääkaikki pääpainollisetvo-kaalit lyhyinä ja pitkinä 11 konsonanttiympäristössä)ja puhuvasuomenkie-len sanakirja(DAT-nauhoillaon kahdenammattipuhujantuottamina10 000sanaa,jotka on valittu huolellisenkielellisenanalyysinmukaan).Puhuvaansanakirjaanliittyvät nauhoituksetvalmistuivatsyksyllä2000,jaaineistoasiir-retäänparhaillaantietokoneeseenjaCD-levykkeelle.Digitaalitekniikkaanpe-rustuva suomenkielinenpuhuva sanakirjaon osahanke Suomenyleiskielenfonetiikka-tutkimusprojektissa,joka onSuomenAkatemianrahoittama.

Laitostilojaonnoin664neliömetriäneljässäkerroksessa:laitostilatsisältäväthenkilöhuoneet,äänittämön,puhumon,laboratorioja terapiatilatsekäluen-to ja harjoitustilat.Tallennuslaitteinaon kelanauhoittimia,DAT-nauhureita,Sony-mininauhoittimia,videokameroitaja mikrofoneja.Käytettäviäpuhea-nalyysiohjelmistojaovatSoundscope,Kay ElemetricsComputerizedSpeechLaboratory, Multispeech,Praat,Signalyzesekäpuhetietokannankäsittely-ohjelmaQuickSig.Taulukkolaskennassakäytössäovat esimerkiksiExcel jaStatView. Erityisestipuheteknologiaanliityviä ajankohtaisiatutkimushank-keitaovat puhujantunnistusja puhesynteesi.Lisäksi laitoksellaon kehitettyalaanliittyviä omiatietokoneohjelmia.

Viime vuosinafonetiikanlaitoksellaon kehitettyohjelmia,joissasyötteenäonjoko diskreettiämerkkiaineistoatai laitoksenkaupallisillapuheenanalyy-siohjelmillamitattuadigitaalistatietoa.Ohjelmatmahdollistavatesimerkiksispektrivertailun,psykoakustisenformanttikartan,puhujanartikulaationliik-kuvan lateraalikuvan,kestovertailun,perustaajuuskontuurienvertailun,ään-netilastojengraafisenesittämisensuoraansanakirjastatai tekstikorpuksestasekäpuhujantemporaalisenäänialankuvauksen.Kaikenkaikkiaanohjelmiavoidaankäyttäälaajastikieltenäänteellistenja prosodistenseikkojenkuvaa-miseen.

Fonetiikanlaitoksellatarvitaannykyistä laajempija edustavampipuhetieto-kanta;tarkoituksenaonhankkiaSpeechDat(II)(ks.46). USIX-teknologiaoh-jelmanyhteydessälaitos suunnitteleelaajanpuhujatietokannankeräämistä.LisäksiEU:n INTAS-hankkeessatullaanlaatimaanrajoitettuspontaaniapu-hettaja lukupuhuntaasisältäväpuhetietokanta.

Puheendigitaalinentaltiointi on nostanutaineistonsäilyvyydenja käsitte-lyn tasoahuomattavasti:työasemat,joilla voidaankäsitellähyvin laajojadi-gitaalisiapuheaineistojatehokkaillaohjelmilla, tulevat yleistymään.»Mam-muttiaineistot»eivätkuitenkaanratkaisekaikkiaongelmia,vaanerillisaineis-tot, esimerkiksimurreaineistot,ovat tarpeenerillistutkimuksiavarten.Puhe-tietokantojenedustavuudenkäsitetulisikin suunnitellatarkoin, ja tähäntar-vitaantutkimustahojenvälistäyhteistyötä:puhetietokantojensisältöjentuli-si mahdollistaaeriytyneet,joissakintapauksissamyöspienimuotoiset,tutki-mushankkeet

Tulevaisuudenkeskeisettutkimuskohteetfonetiikanlaitoksellakoskevatsuo-

Page 52: Puheentutkimuksen resurssit Suomessaettä ihminen voi välittää tietoa sisäisistä tarpeistaan ja ulkoisesta olemukses-taan organisoimalla liikkeeseen ilman molekyylejä keuhkojen

52 PuheentutkimuksenresurssitSuomessa

men fonetiikkaayleensä,puhujantunnistusta,puhesynteesiäsekäpuhuvansanakirjansovelluksia.Puheenasematutkimuksenkohteenaon entistäsel-vemmintunnustettu,ja puheentutkimuksen(tieteellinenja kaupallinen)pai-noarvo on selvästilisääntymässä.Puheteknologiaaovat perinteisestiedusta-neetSuomessateknillisetkorkeakoulut,muttanykyisin alkaaolla selvää,ettämyöshumanistinenasiantuntemusonalallatarpeen.TämänosoittavatUSIX-hankkeet (alkaenvuodesta2000), jotka tähtäävätkäyttäjäläheisenosuudenlisäämiseenalueilla,joissatekniikkaja humanistisettieteetkohtaavat.

B.6 Fonetiikka (TUY)

FonetiikkakuuluuyhtenäoppiaineenaTurunyliopistonsuomalaisenja ylei-senkielitieteenlaitokseen.Määräaikaisenaprofessorinatoimii Olli Aalto-nen. Oppiaineessaon vain kaksipysyväävirkaa jäljellä: fonetiikanlehtorinja tutkijanvirat. Vuoden2001alustalähtienfonetiikanoppiaineessaovattoi-mineetmääräaikainenprofessori,erikoistutkija, lehtori, yliassistentti,ama-nuenssisekäprojekteissatoimivat tutkimusassistenttija -avustaja.Rahoitusmääräaikaisiintoimiin tuleeprojekteista:Kieliteknologianprojektirahoituk-sellaturvataanprofessorinja erikoistutkijantyö vuoden2001heinäkuunlop-puun,ja Tekesrahoitti amanuenssinja tutkimusassistentintyösuhteet,jotkapäättyivät huhtikuussa2001.Yliopiston virkabudjetistamaksetaanlehtorinja yliassistentinpalkat;heidänkinmääräyksensäloppuvatheinäkuussa2001.

Oppiaineenkeskeisin tutkimusalueon 1960-luvultalähtienollut eri kieltenvokaalijärjestelmienvertailevatutkimus.Menetelmällinenperustaonvokaali-järjestelmienakustiseenanalyysiinpohjautuvavertailujapuhesynteesi.1980-luvulla puheenhavaitsemisentutkimuksessaalettiin soveltaalisäksiaivotut-kimuksenmenetelmiätavoitteenaymmärtääfoneettistenprosessienbiologis-ta perustaa.Tämäkehitys johti 1990-luvullakognitiivisenneurotieteentut-kimusyksikönperustamiseen;yksikkö on monitieteinen,ja fonetiikanasian-tuntemuksenlisäksiyksikköedustaaneurologian,kliinisenneurofysiologian,psykologianja tilastotieteenasiantuntemusta.Fonetiikantutkimuksenpääta-voitteenaonselittääpuheentuottamisenja havaitsemisensentraalisiaja peri-feerisiäprosesseja;tavoite vaatii erittäin laaja-alaistatiederajatylittävääyh-teistyötä(esimerkiksisuukirurgian kanssatehdäänyhteistyötäpuheenarti-kulatorisenja neuromotorisenkuvauksentäsmentämiseksija vieraankielenäännejärjestelmänoppimistatutkitaan yhteistyössädidaktiikan tutkijoidenkanssa).Erityisenselvästion nähtävissä,ettäaivotutkimuksenmenetelmiäsoveltaenvoidaanselittääerilaisiafoneettisiaja fonologisiailmiöitä. Foneet-tistatutkimustatehdäänlisäksisuomenmurteidenakustisistaominaisuuksis-ta,puheenyleisistäprosodisistapiirteistäsekäerityisestiäänenperussävelensäätelystäsana-ja lausepainonilmaisemisessa.Fonetiikantutkimuspalveleemyöspuhtaastisoveltavia näkökohtiasiten,ettäyhteistyötätehdäänyritystenkanssapuheteknologianalaankuuluvissakehityshankkeissa.

Oppiaineenkäytössäovat Turun yliopiston LauseopinarkistonkokoelmatsekäHelsinginyliopiston yleisenkielitieteenlaitoksenpalvelimessaolevattietokannat.Näitä resurssejaei kuitenkaanole hyödynnettylainkaanniidenhankalankäytettävyydenvuoksi.Fonetiikanoppiaineellaolisi sitenkäyttöä

Page 53: Puheentutkimuksen resurssit Suomessaettä ihminen voi välittää tietoa sisäisistä tarpeistaan ja ulkoisesta olemukses-taan organisoimalla liikkeeseen ilman molekyylejä keuhkojen

B. Vastaukset 53

digitaalisestitallennetullepuhetietokannalle,jokaolisi annotoitufoonien,fo-neemien,tavujen,morfeemienja sanojentasollamyösprosodianosalta.

Oppiaineellaon käytössäänkahdeksantyöhuonetta,joihin on sijoitettuhen-kilökunnantilojen lisäksiakustisenanalyysinja puhesynteesinlaboratorioti-lat. Laboratoriotilanaon äänieristettyhuoneja tutkimustiloinakaksianalyy-sihuonetta.Äänitysstudiolaitteenaon Revox G36. Tietokonekantakoostuuseuraavista laitteista:OsborneWork AE7K-800-D8(kolmekappaletta),Os-bornePower, OsborneEDU S810,OsbornePower CT6K-233-U2,OsbornePro, OsbornePower 40891511sekäMac Perfoma6320(käyttöjärjestelmi-nä Windows 95 / 98 sekäMacOS7.5). Oheislaitteinaovat puheanalyysissäKay ElemetricsSona-GraphDSP5500ja LUCIA spektri-indikaattori,puhe-synteesissäPipelb -syntetisaattorija Ove lb -syntetisaattorisekäpuheental-lennuksessaSharpMD-SR50HMD -nauhuri,TascamPS-D1DAT-nauhuri,Aiwa DAT nauhurija Aiwa C-kasettinauhuri.Mikrofoneja ja desibelimitta-rejaovat AKG C1000S,AT-9500,ShureSM48,ShurePrologue14H,Hamaja Brüel & Kjaer 2209.Käytetytohjelmistotovat Kay ElemetricsCompute-rized SpeechLaboratoryCSL 4300B,Kay ElemetricsVisi-Pitch6097,IPATutorial,HL Syn,Praat,CoolEdit2000sekäAutoSyn.

Tärkeälähitulevaisuudentavoite tutkimuksessaon selvittääfonetiikanja ai-votutkimuksenmenetelmin,miten äidinkielenäännejärjestelmämuodostuuja kehittyy vastasyntyneenaivoissa;hanke on osakansainvälistätutkimusta,jonkaavulla kerätäänperustietoamonikielisyydenaivomekanismeistaja vie-raankielen oppimisesta.Foneettisinja psykofysiologisinmenetelminon jovoitu osoittaa,ettääänenkuuleminenja puheenhavaitseminenovateri asioi-ta(onmyöspystyttyosoittamaan,ettätiedostamattomallakuulemisentasollaäidinkieli modifioi havaitsemistaratkaisevasti).Puheenhavaitsemisentutki-muksessaon nyt menossauusi vaihe,kun akustistenmuuttujienlisäksi kar-toitetaankielensääntöjenvaikutustahavaintoon.

Suomenkieleenliittyvä puheentutkimustuleeolemaanoppiaineensisälläen-tistä merkittävämpialue: suomenkielisenpuhesynteesinjatkokehittelyäol-laanaloittamassayhteistyössäpuheteknologiantutkijoidenkanssa(jo 1970-luvulla luotiin toimiva sääntösynteesi,jota nyt kehitetäänedelleen).USIX-ohjelmassaoppiaineenrooli liittyy monikieliseenpuheentunnistukseen:yh-teistyökumppaneitaovatTampereenteknillinenkorkeakoulu ja Nokia.Turunyliopistossaon kehitettytutkimushankettavarten400vokaaliärsykettäsisäl-tävätesti,jokasiirretäänkokonaisuudessaanverkkoon.Pilottikokeitaon teh-ty sadallakuulijalla, jotka edustavat toistakymmentäeri kieltä. Tilastollistaanalyysiäkehitetäänparhaillaaneri kieliä yhdistävienpiirteidenlöytämisek-si.

Puheteknologianalallaolevakysyntäylittääselvästipuheentutkimuksenalal-la toimivien tutkijoidenmäärän.Opetus-ja tutkimusvirkojenlakkautusja se-nioritutkijoiden vähäinenmääräovat vakava uhkasekätieteenalantulevai-suudelleettämaammekansainvälisellekilpailukyvylle.

Page 54: Puheentutkimuksen resurssit Suomessaettä ihminen voi välittää tietoa sisäisistä tarpeistaan ja ulkoisesta olemukses-taan organisoimalla liikkeeseen ilman molekyylejä keuhkojen

54 PuheentutkimuksenresurssitSuomessa

B.7 Institutionaalisen vuor ovaikutuksen tutkim usyksikkö

Institutionaalisenvuorovaikutuksentutkimusyksikköon Tampereenyliopis-ton sosiologianja sosiaalipsykologianlaitoksen,Kotimaistenkielten tutki-muskeskuksenja Helsinginyliopistonsuomenkielenlaitoksenyhteishanke.ToimintaakoordinoiTampereellaprofessoriAnssi Peräkylä (sosiologianjasosiaalipsykologianlaitos).Institutionaalisenvuorovaikutuksentutkimusyk-sikkökokoaayhteenammatillisiavuorovaikutustilanteitakoskevaatutkimus-ta ja alantutkijoita. Yksikön piirissätehdäänsekäsosiaali-ettäkielitieteel-listä tutkimusta.

Sosiologianja sosiaalipsykologianlaitoksellatyöskenteleenoin30henkilöä,joista7 työskenteleepuheentutkimuksenparissa;yliopistonvirassaon3 hen-kilöä, muut toimivat SuomenAkatemianrahoituksella.Laitoksellaharjoi-tettava puheentutkimuskuuluu sosiaalipsykologianja keskustelunanalyysinalaan.

Hoitoideologiat ja vuorovaikutus-hanke tutkii hoitoa koskevien teoreettis-ten mallien ja todellisenvuorovaikutuksensuhdettakolmessaympäristös-sä:potilaanalkoholinkäyttöäkoskevassamini-interventiokeskusteluissalää-kärinvastaanotolla,vaihtoehtolääkinnässäsekäpsykoanalyysissä.Hankkeentavoitteenaon selvittää,miten hoidonantajanja vastaanottajanvälistävuo-rovaikutustakoskevat ammatillisetteoriat ja normatiiviset mallit toteutuvattodellisissavuorovaikutustilanteissa.HankkeessaIkääntyminen,terveys jatoimintakyky tutkitaaninstitutionaalistavuorovaikutusta:kuntatasonaluetyö-ryhmientoimintaaanalysoimallapyritäänhahmottamaansitä,miten eri so-siaali-ja terveystoimenedustajistakoostuvissatyöryhmissätehdäänyksittäi-senikääntyvänhenkilönelämäntilannettakoskevia käytännönhoito- ja pal-velupäätöksiäja miten päätöstenkriteerejätuotetaanja määritelläänasian-tuntijapuheessa.

Hoitoideologiat-aineistokoostuuluonnollisestadialogistainstitutionaalisis-sakonteksteissa.Mini-interventio-aineistokoostuudigitaalisessamuodossaolevistavideonauhoista,jotkaonkopioituVHS-videonauhoilleja C-kaseteil-le; aineistoaon 26 tuntia.Psykoanalyysi-aineistoon tallennettudigitaalises-ti; aineisto,jota on 45 tuntia, on lisäksi kopioitu C-kaseteille.Vaihtoehtoi-sethoitomuodot-aineistoon videoitu digitaalisestiD8-nauhoille,joilta ai-neistoon kopioitu VHS-videonauhoilleja C-kaseteille.Aineistoaon 87 tun-tia, ja materiaaliakerätäänedelleen.Ikääntyminen,terveys ja toimintakyky-aineistoon videoitu digitaalisesti(D8); aineistoaon 26 tuntia ja sisältönäon moniammatillistapäätöksentekoaedustavia kokoustilanteitasekävapaa-muotoisempiapuhetilanteita.Lisäksivideoitujalääkärinvastaanottojaon tut-kimusaineistona60tuntia;materiaalionvideoituanalogisesti(Hi8). AineistoonkopioituVHS-nauhoilleja C-kaseteille).

Kaikki aineistokerättiinsiten,ettäkameratai nauhurioli samassahuoneessainformantinkanssa.Tutkija ei ollut läsnänauhoitustenaikana.Kaiken tal-lennetunaineistonosaltainformanteiltaon pyydettykirjallinen lupamateri-aalin tutkimuskäyttöävarten.Tarvittaessaeettiseltätoimikunnaltaon lisäksihaettulupa.On huomattava,ettäaineistoon luonteensavuoksiehdottomastisalaista– materiaaliei ole jaettavissalaajempaantutkimuskäyttöön.Kaikki

Page 55: Puheentutkimuksen resurssit Suomessaettä ihminen voi välittää tietoa sisäisistä tarpeistaan ja ulkoisesta olemukses-taan organisoimalla liikkeeseen ilman molekyylejä keuhkojen

B. Vastaukset 55

tallennettumateriaalion litteroitu vakiintunuttakeskustelunanalyyttistata-paakäyttäen,sitenettäesimerkiksipainotukset,tauot,sisäänhengityksetjanaurahdukseton tarkoin merkitty. Litterointi on tallennettutietokoneelle.

Tutkimuslaitteinalaitoksellaon kaksi VHS-videonauhuria,kaksi televisio-ta, CD-soitin, MD-soitin, viisi litterointilaitettaC-kasettejavarten,MD-lit-terointilaitesekäkaksi digitaalistaHi8-videokameraa.Lisäksi ostopalvelu-nakäytetäänTampereenyliopistonpuheopinlaitoksenkeskusstudiota,jossaMD-aineistondigitaalinenvarmuuskopiointi suoritetaan.Tutkimuksenapunakäytetääntavanomaisiatekstinkäsittelyohjelmia(Windows,WP).Varsinaisiapuheentutkimukseensuunniteltujasovellusohjelmiaei olekäytössä.

Laitoksellaon kiinnostustaja tarvettakäyttäämuidenpuheentutkimustaho-jenpuhetietokantoja;erityisentarpeellisiaolisivatarkikeskustelujasisältävätaineistotja litteraatiot.Laitoksenomataineistoteivät ole materiaalinarka-luontoisuudenvuoksimuidentahojenkäytettävissä.

B.8 Kognitiivisen tieteen ja teknologian tutkim usr yhmä(TKK)

Kognitiivisen tieteenja teknologiantutkimusryhmätoimii Teknillisenkor-keakoulunlaskennallisentekniikanlaboratoriossa,jokakuuluusähkö-ja tie-toliikennetekniikanosastoon.Tutkimusryhmänjohtajaon professoriMikk oSams. Yksikössäon 11 tutkijaa, joista puheentutkimuksenparissatyösken-telee9 henkilöä(virkasuhteisiatutkijoita onkaksi;SuomenAkatemiarahoit-taakolme tutkijan- paikkaa,Tekeskaksi ja EU yhden).TutkimustilojaovatpsykofysiikanlaboratoriosekäEEG-laboratorio.

Kognitiivisentieteenja teknologiantutkimusryhmäkeskittyy erityisestiau-diovisuaalisenpuheenhavaitsemisenneurokognitiivisiin mekanismeihin.Pu-he ei ole vain akustinen,vaan myös visuaalinenilmiö. Visuaalinenpuheon siis nähtyäpuheartikulaatiotaja kuulija integroi visuaalisenja akustiseninformaationhavaitessaanja tulkitessaanpuhetta.Visuaalinenpuheon eri-tyisentehokastasilloin, kun akustinensignaalion heikentynyt, esimerkiksimeluntai ihmisenkuulovian johdosta.Toisaaltavisuaalinenpuhevaikuttaatulkintaansilloin, kun akustinenja visuaalineninformaatioovat ristiriidassakeskenään(McGurkin efekti).

Tutkimusryhmänperustutkimuksellisenatavoitteenaon mm. kartoittaaai-vojenaudiovisuaalisetintegraatioalueet.Menetelminäovat psykofysiikka jamodernitaivojen kuvantamismenetelmät(EEG,MEG ja fMRI). Soveltava-na tavoitteenaon kehittääihmisenkommunikaatiomekanismientuntemuk-seenperustuvaaudiovisuaalistapuhettatuottavakasvoanimaatio,KeinoHen-kilö. Tutkimuksessahyödynnetäänlaskennallistainformaatiotekniikkaa,jos-sakäytetäänkehittyneitätodennäköisyys-ja informaatioteoreettisiamenetel-miä sekäneuroverkkoihin perustuvaalaskentaa.

Ensimmäinenversioaudiovisuaalisestapuhesyntetisaattoristakulkeenimel-lä »puhuvapää».Seonyhdistelmäakustisestasyntetisaattorista(TimeHouseOy:n kehittämäMikroPuheks. 83) ja dynaamisestaanimoidustakasvojen

Page 56: Puheentutkimuksen resurssit Suomessaettä ihminen voi välittää tietoa sisäisistä tarpeistaan ja ulkoisesta olemukses-taan organisoimalla liikkeeseen ilman molekyylejä keuhkojen

56 PuheentutkimuksenresurssitSuomessa

mallista.Vastaavia puhuviaaudiovisuaalisiapuhesyntetisaattoreita(TalkingHeads)on kehitettyenglannin,ruotsin, japaninja ranskankielille. Syntee-sin laatuaarvioidaanjatkuvasti,ja laboratoriossakehitetäänsystemaattisestityökalujaevaluointiavarten.Järjestelmänkäyttöliittymäon kehitettyyhteis-työssäprofessoriKari-J ouko Räihän johtamanTAUCHI-ryhmäkanssa(ks.80).

Syntetisaattorintuottamatfoneemiartikulaatiotperustuvat laboratoriossake-rättyyn audiovisuaalisenpuhetietokantaan.Kasvojen liikk eitä mallinnetaanFACS-järjestelmänmukaisesti(facial actioncodingsystem).Järjestelmässäon 49 parametriä,joista 12 parametriämallintaavisuaalistapuhetta,kutenhuultenja leuanasentoa.Lisäksi mallissaon parametrejä,jotka mallintavatkasvojentopologiaa,ja ilmaisuparametrejä,jotkakontrolloivatkasvojenliik-keitä. Tulevaisuudessatarvitaanlaajempiaudiovisuaalinenpuhetietokanta,jonka avulla voidaanmallintaakoartikulaatiotaja parantaapuhesynteesissäsiirtymistäviseeminja foneeminvälillä.

KeinoHenkilöntuottamaaudiovisuaalinenpuhesynteesiperustuutekstiläh-töiselleanimaatiolle.Akustinensyntetisaattori(MikroPuhe)kääntääsyötet-tävän tekstin foneemisekvensseiksi.Kukin sekvenssisisältääkohdefonee-min sekäedeltävänja seuraavan foneemin.Sekvenssikontrolloi visuaalis-ta syntetisaattoria.Akustinensynteesion metodiltaan»konkatenatiivinen»:uusiaäänteitätuotetaanyhdistelemälläsopivia segmenttejätallennetustapu-heestaja näihin lisätääntarvittavat kesto-ja perussävelarvot. Yhdenaudio-sekvenssintuottamistavartentarvittava laskenta-aikaon vähemmänkuin 5ms. Visuaalisellesyntetisaattorilleannetaantarvittavat kasvojen liikk eidensynkronointiakoskevat tiedot. Siirtyminenfoneemitasoltakasvojen liikk ei-dentasolleperustuuns.viseemeihin.Suomenkielestäon löydetty12 visee-miä,jotkaonmuodostettuyhdistämällävisuaalisestisamankaltaisetfoneemityhtenäisiksiryhmiksi.Viseemitonaudiovisuaalisessapuhesynteesissäkään-nettykasvojenliikk eitämallintaviksi parametreiksi.

Suurinongelmatällä hetkellä on se,ettäpuhesyntetisaattorintuottamaääniei ole laadultaanluonnollisenäänentasoa.Synteesissäkäytettävämenetelmäyhdisteleeaiemmintallennettujasegmenttejäja segmenttienvälillä olevatra-jakohdatja epäjatkuvuudetaiheuttavat generoituunpuheeseenkohtia, jotkaeivätkuulostaluonnollisilta.

Audiovisuaalisenpuhesyntetisaattorintuottamanpuheenymmärrettävyyttäon tutkittu perkeptiotestein.Kun syntetisaattorintuottamaafoneemiartiku-laatiotaparannettiinja laskennallinenkielenmalli lisättiin järjestelmään,syn-teettistenkonsonanttiartikulaatioiden,erityisestibilabiaalienja labiodentaa-lien, ymmärrettävyyskohenihuomattavasti.Testienavulla synteettistenkon-sonanttienja vokaalienidentifioitavuuttakehitetäänedelleen.

KeinoHenkilöonskaalautuvaja aiempia»puhuvapää»-mallejayksityiskoh-taisempi.Joustavaaparametrisointiakehitetäänkeinohenkilönkasvojen ra-kenteelleja visuaalisellepuheelle.MyöhemminKeinoHenkilötuleeolemaanosadialogijärjestelmää,jossayhdistyvätaudiovisuaalinenpuhesynteesi(mu-kaanlukien siihenliittyvät kommunikatiiviseteleet)sekäautomaattinenau-diovisuaalinenhenkilöntunnistaminen.

Page 57: Puheentutkimuksen resurssit Suomessaettä ihminen voi välittää tietoa sisäisistä tarpeistaan ja ulkoisesta olemukses-taan organisoimalla liikkeeseen ilman molekyylejä keuhkojen

B. Vastaukset 57

Kognitiivisen tieteenja teknologiantutkimusryhmäjatkaa KeinoHenkilönkehitystyötäerityisestiosanadialogijärjestelmiä.Audiovisuaalisenpuheen(perus)tutkimustaja mallintamistatullaanmyösjatkamaan.Tutkimusalueetovat laboratoriolletärkeitä, ja niillä on koko Suomenkannaltamerkitystä:laadukkaallavisuaalisellapuhesynteesilläon lähesrajattomanpaljon sovel-lusalueitaesimerkiksitelekommunikaatiossaja uusissakäyttöliittymissä.

B.9 Kotimaisten kielten tutkim uskeskus

Kotimaistenkieltentutkimuskeskus(Kotus)onopetusministeriönalainenkie-litieteellinentutkimuslaitos,jonka toiminta-ajatuksenaon lisätätietoakoti-maisistakielistä ja niidenasemastakulttuurissaja yhteiskunnassasekänäinluoda edellytyksiäkielelliselle tasa-arvolle Suomessa.Kotimaistenkieltentutkimuskeskuksenjohtajanatoimii professoriPirkk o Nuolijär vi, puhutunkielentutkimusyksikönvastuuhenkilöonerikoistutkija,dosenttiMarja-Lee-na Sorjonen.

Koko tutkimuskeskuksessaon noin 100työntekijää.Puheentutkimuksenpa-rissatyöskentelee6 vakinaistatyöntekijääja 1 tutkijatohtori (3 tutkijaasuo-menkielennauhoitearkistossaja 4 tutkijaapuhutunkielentutkimusyksikös-sä).Työsuhteistavirkasuhteisiaon 5 ja määräaikaisia2 (joista1 nauhoitear-kistossaja 1 puhutunkielentutkimusyksikössä).Yhdenmääräaikaisentutki-musviranrahoitustuleeSuomenAkatemialta(post-doc),muidentyösuhtei-denrahoitustuleevaltionbudjettivaroista.

Puheentutkimuspuhutunkielentutkimusyksikössäkuuluusuomenkielentut-kimuksenja fonetiikanalaan:yksikössäharjoitettava tutkimusedustaatar-kemmin määriteltynävariaationtutkimusta,dialektologiaa,sosiolingvistiik-kaaja keskustelunanalyysiä.Puhutunkielentutkimuksenyleistavoitteenaonselvittää,mitä puhutussasuomenkielessäja kieliyhteisössätapahtuu.Tut-kimuskeskittyykielellisenvariaationja kielellistenvuorovaikutuskäytäntei-denanalyysiin.Kielellisen variaationtutkimuksessahankitaantietoanyky-suomenäänne,muotoja lauserakenteenvariaatiosta.Myösmurteidenproso-diaatutkitaan.Vuorovaikutuskäytänteitätutkitaanerityisestierilaisissainsti-tutionaalisissatilanteissa,ja tämätutkimustuottaatietoasyntaktis-semantti-sistakielenilmiöistäja niidentehtävistä,samoinkuin vuorovaikutustehtävienkielellisestärakentamisesta.

Suomenmurteidenmuuttumistaon tutkittu nauhoittamallaeri ikäluokkiaedustavien,eri puoleltaSuomeakotoisinolevienhenkilöidenpuhettahaastat-telujenyhteydessä;puheenmorfologisiaja fonologisiapiirteitäontutkittu, jaerityistähuomiotaon kiinnitetty prosodiikkaanja intonaatioon(rytmiin, ta-vulukuun,puhenopeuteensekäperussävelenpaikalliseenja globaaliinvaih-teluun).

Vuorovaikutuskeinojaerityisestiinstitutionaalisissatilanteissaon tutkittu vi-deoimallaasiointitilanteitaesimerkiksiKelantoimipisteessä,terveyskeskuk-sessaja kaupassa.On kartoitettuesimerkiksikielellisiä rutiinejasekäkysy-myksiäja vastauksiaasiointitilanteissa.TekstintutkimusKotuksessakeskit-tyy asiateksteihin,erityisestivirkakieleen,ja sillä on elimellinenyhteys kie-

Page 58: Puheentutkimuksen resurssit Suomessaettä ihminen voi välittää tietoa sisäisistä tarpeistaan ja ulkoisesta olemukses-taan organisoimalla liikkeeseen ilman molekyylejä keuhkojen

58 PuheentutkimuksenresurssitSuomessa

lenhuoltoon,etenkinviranomaisviestinnänosalta.Yhdessänäidentekstin-tutkimushankkeidenkanssaKotuksessaharjoitettava puheentutkimuspyrkiiluomaankuvaakansalaistenja viranomaistenvälisestävuorovaikutuksesta.

Suomenkielen nauhoitearkistossaon käytössätutkimuslaitteinakenttänau-hureitavarusteineen,digitaalinenvideokamera,äänendigitointilaitteisto,lit-terointinauhureitaC-kasettejavarten,3 VHS-laitettasekä6 PC-tietokonettatutkimuskeskuksenverkossa(käyttöjärjestelmänäon Windows 95).Puheen-tutkimuksessakäytetäänSoundForgeja Praat-ohjelmia.

Käytössäei ole kaupallistapuhetietokantaa.TutkimusmateriaalimuodostuuSuomenkielennauhoitearkistonaineistosta,jonkasisältöonluonnollistadia-logia. Nauhoitearkistosisältäänoin 16000 tuntia analogisestitallennettuapuhemateriaaliaja 1500 tuntia digitaalisessamuodossaolevaamateriaalia.Suurinosaanalogisistatallenteistaonavokelanauhoilla,pieniosaonC-kase-teilla.Digitoitu materiaalionSLR-50ja SLR-100-kaseteilla.Pieniosamate-riaalistaon analogisillaja digitaalisillavideonauhoilla.Materiaalinlaatuonhyvä,muttaaineistonnykyinenanaloginentallennusmuotoei ole optimaali-nen,jotenanalogisiatallenteitadigitoidaankoko ajan.

Suurinosatallenteistaedustaakahdenkeskisiäkasvokkaistilanteita,erityises-ti haastatteluja.Pienimääräaineistostaonäänitettyryhmätilanteissakeskus-telujenja asiointitilanteidenyhteydessä.Onhuomattava,ettäpuheaineistoaeiole kerättytiukoin koeasetelmin,vaanpuhetilanteetovat ollet vapaitahaas-tattelujaja arkisiavuorovaikutustilanteita.Erityisesti viranomaistenkanssakäytyihinasiointikeskusteluihinliittyy salassapitovelvoitteita.

Noin 1000tuntiaon litteroitu puolikarkeansuomalais-ugrilaisentarkekirjoi-tuksenmukaisesti.Asiointikeskusteluaineistoon litteroitu keskustelunana-lyysin tarkekirjoituksenmukaisesti.Puhujistaon olemassatarkathenkilötie-dot, jotka on tallennettutietokoneellaolevaanarkistoon,asiointikeskustelu-jenosanottajistaei kuitenkaanolehenkilötietoja.Litteroinneistasuuriosaontehtytekstinkäsittelyohjelmilla(WP),muttaosaon tehtykirjoituskoneellajamyöskäsinkirjoitettujalitterointejaon jonkunverran.

Nauhoitearkistonmurrehaastattelutsoveltuvattällähetkelläerinomaisestimo-niin tutkimustarkoituksiin. Tutkimuskäyttööntarvitaankuitenkin jatkuvas-ti lisää nykykielistä puheaineistoaeri tilanteistaeri puolilta maata.Kotuk-senaineistoon osoittautunuthyödylliseksimuille puheentutkimustahoille:muuallatoimivat tutkijat käyttävätnauhoitearkistonaineistoajatkuvasti.Toi-saaltaKotuksessaollaankiinnostuneitamuidentutkimustahojenaineistoista,esimerkiksivuorovaikutustilanteidennauhoitteista.Kotuksenkannaltakäyt-tökelpoisinolisi lingvistisestimonipuolisestikoodattutietokantadigitoidus-samuodossa– teknisentietotaidonlisääminenolisi myöstärkeää,erityisestipuheenkäsittelyohjelmientarjoamiatutkimusmahdollisuuksiavoitaisiinhyö-dyntääenemmän.

Tutkimuskeskuksessapuhutunkielen tutkimustuleeselvästivahvistumaan.Puhutunkielenhankkeissatehdäänmetodologistakehitystyötähakemallava-riaation- ja keskusteluntutkimuksenkosketuspintaa.Myös kielellisen ja ei-kielellisentoiminnansuhteisiinkiinnitetäänentistäenemmänhuomiota.Pu-hutun kielen tutkimus on tärkeääKotuksessatehtävänkieliopin tutkimuk-

Page 59: Puheentutkimuksen resurssit Suomessaettä ihminen voi välittää tietoa sisäisistä tarpeistaan ja ulkoisesta olemukses-taan organisoimalla liikkeeseen ilman molekyylejä keuhkojen

B. Vastaukset 59

senja kielenhuollonkannalta.Valtakunnallisestivuorovaikutustutkimustu-lee vahvistumaan,samointieteidenvälinen yhteistyöpuhutunkielen tutki-muksessa.Vuorovaikutuskäytänteidenja variaationtutkijat ovatjo tätänykyävarsinhyvin verkostuneita,muttaaineistojenorganisoinninosaltaei yhteis-työtävieläole.Lisäksipuhuttuasuomeatutkivienlingvistienyhteydetyhtääl-täesimerkiksipuheteknologianparissatyöskenteleviin tutkijoihin ja toisaaltafoneetikkoihin ovat toistaiseksivalitettavansatunnaisia.

B.10 Lingsoft Oy

LingsoftOy:ntaustallaonHelsinginyliopistonyleisenkielitieteenlaitoksellatehtytietokonelingvistiikantutkimus.Yritys onerikoistunutkirjoittajanapu-välineisiin ja tiedonhakuun.Lähtökohtaon monikielisyys:perusteknologialöytyy monellemuullekinkielellekuin suomelle,joilloin kielestäriippumat-tomat tehtävät,esimerkiksirajapinnat,voidaantoteuttaanopeasti.Lingsofttarjoaaratkaisujakielenkäsittelyynja ymmärtämiseenmonikielisessänyky-maailmassa;yrityksen erikoisalojaovat elektronisetsanakirjatja synonyy-misanastotsekäpuheentuottosovellukset.Kielenhuolto-ohjelmistotauttavatkirjoittajaatuottamaanlaadukastatekstiä.

Lingsoft tuo vuonna2001markkinoille kaksi uutta tuotetta:tekstiäääneenlukevanLingsoft ParrotinsekänopeakäyttöisensanakirjanLingsoft Pointe-rin. Parrotlukeeääneenhiirenosoittimenallaolevaatekstiä.Tuotettavoidaankäyttääesimerkiksiinternet-sivuilla liikuttaessa.Pointernäyttääsananmer-kityksentai käännöksenpienessäpuhekuplassa,kun hiiren osoitin pysäyte-täänsananpäälle.Loppukäyttäjillesuunnatutkielentarkistustuotteet,Ortho-grafix ja Grammatifix,sekäelektronisetsanakirjat,Medandreord ja CD-Pe-russanakirja,kuuluvatniinikääntuotevalikoimaan.

Lähitulevaisuudessatietokoneitaja muutaelektroniikkaatullaanohjaamaanpuheellayhä suuremmassamäärin.Yrityksessäkehitetäänkinintensiivises-ti puheentunnistustaja puheentuottosovelluksiaerilaisiin kaupallisiintarkoi-tuksiin.Lingsoftesitteliensimmäisenämaailmassasuomenkieliselläpuheel-laohjattavansovelluksenkansainvälisilläCeBit-messuillamaaliskuussa2000.Tällä hetkellä kehitelläänluotettavaapuheentunnistintasuomenkielelle, jahankkeestasaatavaa tietämystäkäytetäänmyöhemminpuheentunnistimienkehittämiseenmuille kielille. Tunnistuksenparantamiseksihyödynnetäänling-vististätietämystä:morfologinenleksikko huolehtiisiitä,ettäsanattunniste-taantaivutusmuodoissaan,ja foneettinenleksikko kuvaasanojenääntämisen.Sanojenäänneasuntunnistaminentapahtuufoneemikirjastonkautta.Ensim-mäisetmarkkinoille tulevat puheentunnistussovelluksetovat puhekomento-ja sanelusovelluksia. Ne hyödyttävättietokoneenkäyttäjiä, jotka haluavatlisätäuudenkomentokäyttöliittymänkoneeseensa.Erityisestitelekommuni-kaatiopalveluissapuheentunnistuksenhyödyntämismahdollisuudetovat mil-tei rajattomat.Lingsoft on mukanaomientutkimustoimintojensalisäksi lu-kuisissaUSIX-projekteissa.

Lingsoft Oy:n SpeechDivision -osastossahajoitettava tutkimuson sovellet-tuapuheentunnistuksentutkimusta,joka kohdistuuerityisestidialogeihinja

Page 60: Puheentutkimuksen resurssit Suomessaettä ihminen voi välittää tietoa sisäisistä tarpeistaan ja ulkoisesta olemukses-taan organisoimalla liikkeeseen ilman molekyylejä keuhkojen

60 PuheentutkimuksenresurssitSuomessa

komentoihinkäyttöliittymissä.Tutkimustatekeeyhteensä10henkilöä,joistapuheentutkimuksen(puheentunnistuksen)parissatoimii seitsemän.Täyspäi-väisiätutkijoita on 8, osa-aikaisia2. Rahoituson pääosinomaatutkimusra-hoitusta,lisäksisaadaanrahoitustaTekesiltä.

TutkimustapahtuuLingsoftOy:n tiloissaHelsinginTehtaankadulla.Käytös-säonerillinenäänityshuone.Tutkimuslaitteinaovatmikrofonit (mm.AKG:nsankamikrofoni),analoginenmikseri (Behringer) ja tietokoneet (PentiumMMX ja PentiumIII, joissaon Linux- ja Windows-käyttöjärjestelmät).Oh-jelmistojaovatEntropicinHTK (HiddenMarkov ModelToolkit) ja ISIPtool-kit (MississippiStateUniversitynkehittämä).

PuhetietokannanmuodostaaLingsoft FinnishSpeechDatabase,joka on fo-neettisestikattavauseaneri puhujanpuhetietokanta.Aineisto,jokasisältää46tuntiapuhetta,on tallennettudigitaalisestiCD-rommeilleja tiedostopalveli-menkovalevylle. Materiaalion hyvälaatuista(suurinosaon CD-laatuista).Aineisto koostuu18 puhujantuottamista(sanomalehtitekstistäpoimituista)lauseista,nimistä,yksittäisistäsanoistaja käskyistä.Yksi puhunnossisältäävain yhdenpuhujantuottamaapuhetta.Puheaineistoon segmentoitupuhun-noksittain;transkriptioon tehtyfoneemitasolla.Jokaisenpuhujannimi ja su-kupuoli on tallennettutiedostoihin.

Puhetietokannassaon toistaiseksiriittämätönmääräpuhujia; lisäätarvittai-siinerityisestipuhelimenkauttaäänitettyäaineistoa.Puhetietokantaolisi hyö-dyllinen muille tutkimustahoille,ja Lingsoft Oy on myöskiinnostunutmui-dentahojentietokannoista.Optimaalinenpuhetietokantakattaisikaikki tri-fonit eri prosodiaympäristöissä,ja eri puhujiaja äänityskontekstejaolisi run-saasti.

Tulevaisuudessakeskustelevat käyttöliittymät tulevat yleistymään,ja Ling-soft Oy jatkaaalaanliittyvää tutkimusja kehitystyötä.Erityisenhaastavaai-heon jatkuvanpuheentunnistaminen,johonsuomenkielenosaltaresurssejatulisi ohjatakeskitetysti.Tässätarvitaanyliopistojenja yritystenyhteistyötäja valtiollistaorganisaatiotaperusrahoituksenturvaamiseksi.

B.11 MediaTeam (OY)

Oulunyliopistonsähkötekniikanosastoninformaationkäsittelynlaboratorionosanatoimiva MediaTeamon monitieteinentutkimusyksikkö,jonka tutki-muskohdeon multimedianvälitysjärjestelmienja palvelujentutkimus.Me-diaTeamin johtaja on professoriJaakko Sauvola. Tutkimus perustuutie-tojenkäsittelytieteeseen.Yksikössäharjoitettava puheentutkimusliittyy sig-naalinkäsittelyn,puheentunnistuksenja prosodiikantutkimuksenalaansekäkunkin alanteknisiinsovelluksiin.Lisäksipuheentutkimussivuaatutkimus-ta, jonkaavulla pyritäänautomaattiseentekstintopiikin tunnistamiseen.

MediaTeamon kehittänyt kuvanhakujärjestelmienteknologiaaja prototyyp-pejä.Tutkimustaonviime aikoinalaajennettuuusiinmediatyyppeihin,kutenpuheeseen,musiikkiin ja videokuviin.YhteistyöverkostoonkuuluvatMedia-TeaminohellaOulunyliopistonhumanistisentiedekunnaninformaatiotutki-

Page 61: Puheentutkimuksen resurssit Suomessaettä ihminen voi välittää tietoa sisäisistä tarpeistaan ja ulkoisesta olemukses-taan organisoimalla liikkeeseen ilman molekyylejä keuhkojen

B. Vastaukset 61

muksenlaitos,englanninkielenlaitossekäsuomenkielenlaitos.MediaTea-missatyöskenteleetietotekniikanalaninsinöörejä,matemaatikkoja ja kieli-tieteilijöitä.Monitieteisentutkimuksentavoitteenaonratkaistakompleksisendatanhakujärjestelmienkehittelyynliittyviä ongelmia.

MediaTeamiinkuuluukaikkiaan40 henkilöä,joistapuheentutkimuksenpa-rissatyöskenteleeviisi. Puheentutkimusonvieläverratenuusitutkimussuun-tausyksikössä.Kaikki puheentutkimukseenliittyvät työsuhteetovat määrä-aikaisia.Rahoituslähteinäonyliopistonperusrahoitusja Tekes.

Tutkimuksentärkein sovellusalueon tietokantojenhakujärjestelmät,joidenon pystyttäväsuorittamaansisältöpohjainentiedonhakukuvaa,puhetta,mu-siikkia ja tekstiäsisältävistätietokannoista.Hakurobotinonesimerkiksikyet-täväjakamaanäänitemusiikkiaja puhettasisältäviinsegmentteihinja luokit-telemaanniitä edelleentarkemmin.Hakurobotintuleepystyäluokittelemaanpuhettasisältävätkohdatyhdenja useammanpuhujansegmentteihin,puhu-janvaihdoskohdaton pystyttäväpaikantamaan,ja puhujat (ja mahdollises-ti topiikitkin) on pystyttäväidentifioimaanautomaattisenpuheentunnistuk-senavulla. Lisäksi hakurobotinon kyettävähyödyntämäänlaskemiaanää-nenprosodisiaparametrejäpuhujanemotionaalisentai asenteellisentilan ar-vioinnissa.

Puhetietokantanakäytetäänitse tehtyjä tallenteita.Aineisto muodostuueritunnetiloissapuhutuistalauseista.Noin puolentunnin laajuinenaineistoontallennettukovalevylle ja CD-ROM-levylle. Puhuttavat lauseeton suunnitel-tu itse: kukin puhuja(yhteensä10 henkilöä)tuottaakunkin lauseenviides-säeri tunnetilassa(jokaisessatunnetilassakäytetäänsamaa,muuttumatontakehyslausetta).Tunnetilatovat simuloituja;signaalinlaatuon hyvä.Puhujatovat laboratoriohenkilökuntaankuuluviatutkijoita tai opiskelijoita. Henkilö-tiedotja simuloitavantunnetilantiedotonkoodattutiedostonimiin.Aineistoaei oleannotoitu.

PuhettatutkitaanpääosinPC-työasemillaohjelmoimallaja tilastollisilla ana-lyysiajoilla. ÄänitteettehdäändigitaalisellaDAT-nauhurillaradioantennitut-kimustavartensuunnitellussakaiuttomassahuoneessa.Tietokonelaitteetovatkorkeintaankaksivuottavanhoja.Käyttöjärjestelmänäon MS WindowsNT.OhjelmointityökaluinakäytetäänMS/BorlandC++, Borland Java ja MathWorksMatlab5 -ohjelmistoja.TilastollinenanalyysitehdäänSPSS10.0-oh-jelmalla.

Tutkimuksessakäytettäväpuheaineistoonliian suppea.Tunnetilojenitseteh-dynsimuloinninasemestatulisi käyttääammattinäyttelijöidentuottamaama-teriaaliatai autenttistaemotionaalistamateriaalia.MediaTeamissaon sitenkiinnostustakäyttäämuidentutkimusryhmienaineistoja,jotkasisältävätemo-tionaalistapuhetta.Tutkimuskäyttöönparasaineistoolisi hyvin annotoitueritunnetilojaja muitapuhujanglobaalejatiloja heijastavamateriaali.

Yksikkö keskittyytällä hetkelläsuomenkielisenpuheenprosodiseenanalyy-siin ja puheentunnistukseen.Jatkossamyöspuhujantunnistamistaprosodis-tenpiirteidenavulla tutkitaan.Tutkimustuloksiasovelletaanmultimediaasi-sältävientietokantojeninformaationhakujärjestelmienkehittämiseen,missäMediaTeamtähtääSuomessaeturivin tutkimusryhmäksi.

Page 62: Puheentutkimuksen resurssit Suomessaettä ihminen voi välittää tietoa sisäisistä tarpeistaan ja ulkoisesta olemukses-taan organisoimalla liikkeeseen ilman molekyylejä keuhkojen

62 PuheentutkimuksenresurssitSuomessa

B.12 Neuroverkk ojen tutkim usyksikkö (TKK)

Informaatiotekniikanlaboratorioon yksi Teknillisenkorkeakoulun tietotek-niikanosastonopetus-ja tutkimuslaboratorioista.Laboratoriontutkimustyötäkoordinoi Neuroverkkojen tutkimusyksikkö.Tutkimusyksikönperusti1994akatemiaprofessoriTeuvoKohonen, jokaonneurolaskennankansainvälises-ti merkittävimpiäuranuurtajia.Yksikön nykyinen esimieson akatemiapro-fessoriErkki Oja. Informaatiotekniikanlaboratorionesimieson professoriOlli Simula. Tutkimuksenpainopistealueinainformaatiotekniikanlaborato-riossaovat keinotekoisethermoverkot, hahmontunnistusja signaalinkäsitte-ly.

Neuroverkkojentutkimusyksikössä/ informaatiotekniikanlaboratoriossaonyhteensänoin 65 työntekijää,joista puheentutkimuksenparissatyöskente-lee5 tutkijaa.Tutkimuksentavoite on yleinenpuheentunnistusmenetelmienparantaminentutkimusyksikössäkehitettyjenuusienalgoritmienavulla. Fo-neemienakustistenmallienparantamisenlisäksi tutkimussuuntautuunykyi-sin tilastollispohjaisiinoppiviin kielimalleihin,joidenavulla jatkuvan,sanas-toltaanlaajanpuheentunnistaminentulee mahdolliseksi.Puheentunnistuk-seenliittyvää tutkimusta,jokakuuluulaajemmininformaatiotekniikantutki-muksenalaan,onyksikössäharjoitettujo 1970-luvultalähtien.TyösuhteidenrahoitustuleeSuomenAkatemiantutkimus- ja projektirahoituksesta,huip-pututkimusyksikkörahoituksestasekäUSIX-teknologiarahoituksesta.Suurinosatyösuhteistaon luonteeltaanmääräaikaisia.

Käytössäoleva puhetietokantaon laitoksensisäiseenkäyttöönkerätty, pu-hesignaaliasisältävätietokanta:yksittäisiäsanojaon nauhoitettunoin 5000kappaletta.Sanaton tuotettulaboratorio-olosuhteissa(puhujinaoli 70 suo-malaistahenkilöä).Aineisto on digitaalisessamuodossa(tallennettutiedos-topalvelimenlevylle). Puhesignaalionlaadultaankohtalaisenhyvää.Signaalionautomaattisestisegmentoitufoneemeiksipuheentunnistimenavulla; lisäk-si osaaineistosta(tuhansiasanoja)on segmentoitukäsin.Puhujienhenkilö-tiedotlöytyvät tallennetiedostoista.

InformaatiotekniikanlaboratoriossaonparhaillaankäynnissäTekesinUSIX-ohjelmaankuuluva INTERACT-hanke,jonkatavoitteenaonkehittääkielelli-sestiaiempaamonipuolisempiaja rikkaampiamenetelmiäja ratkaisumallejaihmisenja koneenkielellistävuorovaikutustasisältäviintilanteisiin.Tavoit-teenaonmahdollistaaluonnollisenkielenkäyttöteknisissäsovelluksissany-kyistäparemmin.Menetelmienkehittämisenja integroimisenmyötäonodo-tettavissa,ettäluonnollistakieltä voidaankäyttääautomaattistensysteemienkanssatilanteissa,joissaseei oleaiemminollut mahdollistatai ihmisenkan-naltariittäväntoimivaa.Hankkeessatarkastellaansekäpuhe-ettätekstivies-tintäänperustuviaratkaisuja.Hankkeentutkimustyötätullaan soveltamaanesimerkiksikeskustelevienneuvonta-ja tietopalvelujenluomisessa.Kaikissasovellusalueissakeskeisenätekijänäon vuorovaikutuksellisuus:käyttäjävoiilmaistaitseäänluonnollisellakielellä ja haluttuuntulokseenpyritäänmah-dollisimmanpaljoninhimillistä keskusteluamuistuttavalla tavalla.

Puheentunnistustakoskevassatutkimuksessainformaatiotekniikanlaborato-riossakeskitytäänakustistenmallien ja kielioppimallien sekäniihin liitty-

Page 63: Puheentutkimuksen resurssit Suomessaettä ihminen voi välittää tietoa sisäisistä tarpeistaan ja ulkoisesta olemukses-taan organisoimalla liikkeeseen ilman molekyylejä keuhkojen

B. Vastaukset 63

vienopetus-,adaptointi-ja testausmenetelmienkehittämiseen.Menetelmistätutkitaanerityisestisellaisia,jotka soveltuvat suurtendata-aineistojenkäsit-telyyn ja analysointiinja jotka vaativat mahdollisimmanvähänihmisenoh-jausta.

Tutkimustyössäkäytetäänlaskentapalvelinta sekähenkilökohtaisiatyöase-mia (käyttöjärjestelmänäPC-tietokoneissaon Windows tai Linux). Tutki-muksessakäytettävätsovellusohjelmatovat pääsinitse tehtyjä ja verkostasaatavia julkisohjelmia.

Tutkimuksessakäytettäväpuhetietokantaei ole tällä hetkellä optimaalinen:erityisestitarvittaisiinsuurimääräjatkuvaa,selkeääja hyvälaatuistaannotoi-tuapuhetta,joka liittyy johonkin laajansanastonkontekstiin(ideaalitapauk-sessakontekstiolisi saatavilla myöstekstimuodossa).Transkriptiontulisi ol-la lähesvirheetöntä,ja sentulisi sisältääpuheosuuksienalku- ja loppukoh-tienaikatietojenlisäksitietynsemanttisenluokittelun.Aidoille keskusteluai-neistoilleolisi myöskäyttöä.Tätenmuidentutkimustahojenhallussaoleviapuhetietokantojavoitaisiin laitoksellahyödyntää.

Kiinnostuspuheentunnistukseenliittyvääntutkimukseen,jokahyödyntääneu-rolaskennanalgoritmejaja kielen tilastollisiamalleja,on kasvamassa.Lähi-tulevaisuudessavoidaanodottaajärjestelmiä,jotka kykenevät tunnistamaanjatkuvaalaajasanastoistapuhettaaineistonsemanttisenindeksoinninmahdol-listavalla tarkkuudella.On tärkeää,ettäsuomenkielenautomaattinentunnis-tettavuusnouseetasolle,jolla on mahdollistaluodamielekkäitäsovelluksia.kutenenglanninkielen osaltaon ollut jo kauan.Englanninkielisiäradio- jatelevisio-ohjelmiavoidaanjo nyt etsiälähesreaaliaikaisellapuheentunnis-tukseenperustuvalla indeksoinnilla.Suomenkielenosaltatulisikin kerätäai-neistoa,jostavoidaanolettaaolevan hyötyätulevaisuudessatiedonhakujär-jestelmiäkehiteltäessä.

B.13 Nokian tutkim uskeskus

Nokian tutkimuskeskuksessa(Nokia ResearchCenter, NRC) Tampereellatehtäväpuheentutkimukseenliittyvä tutkimusedustaatietojenkäsittelytiedet-tä, erityisesti puheentunnistuksentutkimusta.Tutkimusyksikönjohtaja onPetri Haavisto.

Tutkimuksentavoitteenaon kehittäämonikielisiä ja kohinarobustisiacom-mand& control-tyyppisiäpuheentunnistusalgoritmejasekämonikielisiäpu-hesynteesialgoritmeja.Lisäksi tavoitteenaon luodateknologioitaja proses-sejaedistyksellisten,luonnollistakieltä hyödyntäviendialogisysteemiento-teuttamiseksi.

NokiantutkimuskeskuskehittääpuheteknologiaamyösUSIX-hankkeenyh-teydessä.Yhteistyötätehdäänmm. Tampereenteknillinen korkeakoulun jaTurunyliopiston(fonetiikanoppiainesuomalaisenja yleisenkielitieteenlai-toksella)kanssa.

Tutkimuksenpainopisteei ole suomenkieli, vaantarkoituson kehittääylei-siä, läheskieliriippumattomiapuheentunnistusmenetelmiä.Suomenkieli ei

Page 64: Puheentutkimuksen resurssit Suomessaettä ihminen voi välittää tietoa sisäisistä tarpeistaan ja ulkoisesta olemukses-taan organisoimalla liikkeeseen ilman molekyylejä keuhkojen

64 PuheentutkimuksenresurssitSuomessa

sitentuleolemaanerityisasemassatulevaisuudessakaan:monikielisetja mul-timodaalisetpuheentunnistusjärjestelmätovat tulevaisuudessatutkimuksentärkeinsovellus.Puhemodaliteettinatuleesaamaanyhäenemmänhuomiotaja puheenkäyttöteknologiasovelluksissalaajenee.Tavat ja tottumukset(lop-pukäyttäjienkonservatiivisetasenteet)ovat yksi suurimmistapuhesovellus-tenlaajemmankäyttöönotonesteistä.

Puheentutkimuksenkaupallinenmerkitys on potentiaalisestierittäin suuri.Uudetsovelluksetkoskettavat matkapuhelimienmaailmanlaajuistakäyttäjä-kuntaa,ja uusienteknologioidenluomakaupallinenlisäarvo on merkittäväNokialle ja Suomelle.

B.14 Näkövammaisten keskusliitto

Näkövammaistenkeskusliittoonsokeidenja heikkonäköistenetu-,asiantun-tija- ja palvelujärjestö.Liiton tavoitteenaon edistäänäkövammaistenmah-dollisuuksiaeläätasavertaistaelämäämuidenkansalaistenkanssa;tähänpy-ritäänyhteiskuntaanvaikuttamisen,erityispalvelujentarjoamisenja osallis-tumismahdollisuuksienluomisenavulla. Näkövammaistenkeskusliitto toi-mii yhteistyökumppaninauseissaEU-projekteissaja harjoittaalähialue-jakehitysyhteistyötäulkoministeriöntukemana.

Näkövammaistenkirjasto, nykyiseltänimeltäänCelia, lainaaäänikirjoja ja-lehtiä näkövammaistenkäyttöön;kirjat ja lehdettuottaaNäkövammaistenkeskusliitonerillinenosasto,äänittämö.Äänittämössäonäänitysstudio,jossatehdäänäänikirjojaja -lehtiä, ja kopiointiosasto,jossatehdäänC-kasettiko-pioita äänitysosastossatehdyistäperusäänityksistä.Äänitysosastossaon täl-lä hetkellä8 ammattitasoistaäänitysstudiota,joissaammattilukijat,yhteensäyli 20,lukevatnoin650teostanauhallevuodessa.Kopiointiosastossatehdäänvuosittainrunsaat300000kopiotuntiaC-kaseteille(noin 200000C-90-ka-settia).Äänikirjojen tuottamisessakäytetäänDaisy-konsortionsuosittelemiaohjelmistoja,LP studiopro:neri versioita.

Daisy-konsortio(Digital Audio-basedInformationSystem)pyrkii luomaankansainvälisenstandardindigitaalisten»puhuvienkirjojen»tuottamiselle,vaih-dolle ja käytölle. Näkövammaistenon nykyisin vaikea käyttäääänikirjoja(esimerkiksisuosittujakeittokirjoja,puutarhanhoito-oppaitaja uskonnollisiakirjoja) optimaalisellatavalla: perinteistenluettujenäänikirjojen»käyttöliit-tymä»C-kasetillasallii aineistonselaamisenja tiedon etsimisenvarsin ra-joitetusti.Uusi äänikirjojensukupolvituleemahdollistamaansisällysluette-loidenja muidenmetatekstienhuomattavastiparemmankäytettävyyden.Ta-voitteenaonerityisestikehittääyhteinenformaattidigitaalisillepuhuvillekir-joille (DTB / Digital TalkingBooks):tällähetkelläeri maissaonerilaisetjär-jestelmätja formaatitäänikirjoille,mikärajoittaaäänitteidenvaihtoaeri mai-denäänikirjastojenvälillä. Daisy-konsortionuusi XML-pohjainenkansain-välinen formaattiäänitemateriaalissatuleesitenmahdollistamaanaineistonsiirtämisenmaastatoiseen.

Daisy-konsortionoudattaaolemassaolevia kansainvälisiä standardejaainakunseonmahdollista.Tekstuaalinenja rakenteellineninformaationoudattaa

Page 65: Puheentutkimuksen resurssit Suomessaettä ihminen voi välittää tietoa sisäisistä tarpeistaan ja ulkoisesta olemukses-taan organisoimalla liikkeeseen ilman molekyylejä keuhkojen

B. Vastaukset 65

W3C:nstandardeja1. Äänitiedostojentallennustukeejo olemassaoleviastan-dardeja.Daisy-konsortiorohkaiseeyrityksiä kehittämäänohjelmistoja,jot-ka tukevat digitaalistenpuhuvienkirjojen tuottamista:ohjelmistojatarvitaanmm.verkkoselaimiin,syntetisaattoreihin,järjestelmänhallintaan,äänitteidentoistoonsekäkonversointiin,jossaanaloginensignaalimuunnetaandigitaali-seksi.Daisy-konsortiopyrkii myössaamaanyrityksiäkehittelemäänlaitteita,jotka helpottavatdigitaalistenpuhuvienkirjojen käyttöä:erityisestitarvitaannäppäimistöjäja kädessäpidettäviäohjausyksiköitä,joiden avulla voidaanohjataäänikirjaaja kytkeytyäverkkoon.Daisy-konsortiopyrkii myössiihen,ettätekijänoikeuskysymykseteivät kokonaanestäisinäkövammaisillesuun-nattujenäänikirjojenja -lehtienkansainvälistälevitystäja vaihtoa.

Näkövammaistenkirjasto / Celiasisältääerittäin laajanpuhetietokannanni-menomaanluettujenäänikirjojenmuodossa:uudettallenteetovat digitaali-sessamuodossa(16-bittistä44 kHz:n wav-ääntä);kokonaismääräon noin1000 tuntia. Indeksointion tehty kappaleentarkkuudella.Vanhemmattal-lenteetovatavokelanauhoilla;määräon yli 200000tuntia(puhujiaonuseitakymmeniä).Aineistondigitointiasuoritetaanparhaillaan,ja hankkeenarvioi-daankestävänvuosikymmenenloppuun.Kun arkistoon kokonaisuudessaantallennettudigitaaliseenmuotoon,aineistonkoko onniin suuri(200000tun-tia 44 kHz:n wav-ääntä),ettäpuhetietokannansäilytyson ehkäsyytäantaaulkopuolisentahonhoidettavaksi.Olennaistatässäon riittävän suuri tallen-nuskapasiteetti.

Näkövammaistenkirjasto / Celia tarvitsisi määrärahojaanalogisenmateri-aalin siirtämiseksidigitaaliseenmuotoonmahdollisimmannopeasti:varsin-kin vanhemmananalogisestitallennetunaineistonpelastamiselleon jo kiire.Määrärahaahankkeelleon haettuEU:n ESR-projektista;materiaalinsiirto-työhönon tarkoituskouluttaavajaakuntoisia.Toiveenaon myösse,ettätut-kimuksenavulla puhekäyttöliittymätkehittyisivät ja tarjoaisivatsitenparem-piaapuvälineitänäkövammaisille.

B.15 Puheopin laitos (TAY)

Puheopinlaitoksenjohtajaoli 1.6.2001saakkaTimo Leino. Tämänjälkeenjohtajanatoimii Kaj Syrjänen. Puheopinlaitoksellatehtävästäpuheteknii-kanjavokologiantutkimuksestavastaavatTimo Leino jaAnne-Maria Lauk-kanen. Puheopinlaitoksellaharjoitetaankahdentyyppistätutkimustoimintaapuheentutkimuksenalalla:puheviestinnänalueeseenkuuluvaaja puheteknii-kanja vokologianalueeseenkuuluvaa.Koskaainostaanpuhetekniikanja vo-kologiantutkimukseenliittyy keskeisenäosanainstrumentaalistenmenetel-mien käyttö sekäsystemaattinenäänitearkistonkeruu,selvityksessätarkas-tellaanvain tätäpuoltalaitoksentutkimuksesta.

Laitoksenhenkilökuntamääräon 10: 1 professori,4 lehtoria,2 päätoimistatuntiopettajaa,2 erikoislaboratoriomestariaja toimistosihteeri.Puheteknolo-gianja vokologianalantutkimustaharjoittavatprofessori,1 lehtori,1 päätoi-

1 E�1�1�n:-mo,o�p�p�pq9�p A 9t/�&Mr

Page 66: Puheentutkimuksen resurssit Suomessaettä ihminen voi välittää tietoa sisäisistä tarpeistaan ja ulkoisesta olemukses-taan organisoimalla liikkeeseen ilman molekyylejä keuhkojen

66 PuheentutkimuksenresurssitSuomessa

minentuntiopettajaja toinenlaboratoriomestareista.Vaihtelevamäärälaitok-senopiskelijoita (tällä hetkellä 7) on rekrytoitunatutkimusapulaisiksiosanaopetusta.Laitoksellaon kolme lyhytaikaisenulkopuolisenprojektirahoituk-senturvin työskenteleväätutkijaa.

Puhetekniikanja vokologian tutkimuksessatarkastellaanpuheenja äänenpiirteitä, niiden viestinnällistäfunktiota,harjoitettavuuttasekäharjoitusme-netelmiä.Tutkimuson soveltavaa,ja tavoitteetpalvelevat puheopinkäytän-nön opetusta,muttatutkimustuloksillaon myösperustutkimuksenkannaltamerkitystä,koskane tuottavat tietoapuheviestinnänlainalaisuuksistaja ää-nenvariaatiosta.Tietoapuheenja äänenvariaatiostaja variaationviestinnäl-lisestämerkityksestävoidaanhyödyntääesimerkiksitelekommunikaatiotek-niikassaja puhekäyttöliittymienkehittämisessäsekälisäksi lääketieteessä,yhteiskuntatieteissäja forensisessatutkimuksessa.

Puheopinlaitoksellapuhetekniikanja vokologian alalla harjoitettava tutki-mus jakautuutarkemmin kuvattunaseuraaviin osa-alueisiin:puheteknistennormienkerääminen,tavoiteäänenlaadunkuvaamineneri ammattialoilla,ää-niharjoitustenvaikutustenja vaikutusperusteidenselvittäminensekäpuhe-parametrienviestinnällisenfunktion kartoittaminen.Puheteknistennormienselvitystyöon ollut käynnissälaitoksenkoko olemassaolonajan,ja eri mit-taustuloksistaon kertynyt runsaastiaineistoa.Mittauksetovat määrittäneetesimerkiksivitaalikapasiteetin,keskimääräisenäännönaikaisenilmankulu-tuksen,äännönkeston,ääntöosamäärän,matalimmanperustaajuuden,tavu-toistonopeuden,normaalinja maksimipuhenopeuden,keskimääräisenpuhe-korkeuden(jasensuhteenmatalimpaanperustaajuuteen),keskimääräisenvoi-makkuuden(habituaalisessa,mahdollisimmanhiljaisessaja mahdollisimmanvoimakkaassapuheessasekähuudossamaksimivoimakkuudella)ja lisäksiäänendynamiikankoko äänialalla(fonetogrammi).Kerättyjenpuheteknistenparametrienharjoitettavuuttaon myösselvitetty. Kerättyänormidataakäyte-täänpuheteknisensuorituskyvyn arvioinnissaja soveltuvinosinmyösharjoi-tustavoitteidenasettamisessasekäharjoituksentuloksellisuudenseurannassa.

Tärkeänäosanapuheteknisensuorituskyvyn mittaamistaon äänellisenkuor-mituksensietokyvyn selvittäminen.Laitoksessaon kokeiltu erilaisiakuormi-tustestejä(esimerkiksiluentapuolentunninajanvoimakkuudella70 dB/1mjanumeroidenluetteleminenvoimakkuudella90dB/1mviidenminuutinajan).Kuormittumistaon selvitettysekäkyselykaavakkeidenja äänentuottotestienavulla ettääänenperkeptuaalisenja akustisenanalyysinavulla. Äänentuot-totestitovatsisältäneetesimerkiksimatalimmanperustaajuudenja äännönai-kaisenilmankulutuksenmittaamista.Akustisessaanalyysissäkäytettyjäme-netelmiäovatolleetkeskiarvospektrianalyysitai kaista-SPL-laskenta,pertur-baatioanalyysi(jitter, shimmer)ja signaali-kohina-suhdeanalyysi.

Tavoiteäänenlaadunkuvaaminenmuodostaaobjektiivisenpohjanäänenhar-joittamiselleeri tarkoituksiavarten.Tätävartenlaitoksessaon tehtyselvitys-tä esimerkiksisiitä, millaista ääntäpidetäänyleisestihyvänäpuheäänenäjamillainenon hyvänäyttelijänäänija hyväradioääni.Lisäksion tutkittu sitä,millainen äänieri arvioijaryhmienmukaansopii parhaitenuutisluentaanjamillainen kuulutuksiin.Äänenlaadunobjektiivisessakuvaamisessaon käy-tetty apunaerityisestikeskiarvospektrianalyysiä.

Page 67: Puheentutkimuksen resurssit Suomessaettä ihminen voi välittää tietoa sisäisistä tarpeistaan ja ulkoisesta olemukses-taan organisoimalla liikkeeseen ilman molekyylejä keuhkojen

B. Vastaukset 67

Erilaistenääniharjoitustenvaikutuksiaja vaikutusperusteitaon selvitettyerimenetelmin.Äänenlaadunmuutostenkuvaamisessaon käytettyesimerkiksikeskiarvospektrianalyysiä,spektrografiaaja LPC-analyysiäsekäosin myössignaali-kohina-suhdeanalyysiäja perturbaatioanalyysiä.Äänentuottolaadunmuutoksiaon kartoitettumittaamallaglottisresistanssia,äänihuulivärähtelynlaatuaon tarkasteltuäänihuultenvälisenkontaktinajallistavaihteluakuvaa-vanelektroglottografianavulla tai glottisherätettäestimoivankäänteissuoda-tuksenavulla (IAIF, kehittäjäPaavo Alku ), kurkunpäänvertikaalistaasemaaäänentuotonaikanaon seurattukaksikanavaisenelektroglottografinavulla,ja kurkunpäänalueenkeskimääräistälihasaktiviteettia on mitattu elektro-myografiallapintalevyelektrodejakäyttäen.Tutkimusyhteistyötäontehtyko-timaassaerityisestiTampereenyliopiston näyttelijäntyönlaitoksenkanssa,Oulun yliopiston foniatrianlaitoksenja radiologisendiagnostiikanklinikankanssasekäTeknillisenkorkeakoulunakustiikanlaboratorionkanssa.Yhteis-työssäYhdysvaltojenNationalCenterof VoiceandSpeech-tutkimuskeskuk-senkanssaonerityisestikeskityttyääniväylänimpedanssiakasvattavienääni-harjoitusten(soinnillisetfrikatiivit, täryäänteetsekäputkiin ääntäminen)vai-kutustenja vaikutusperusteidenselvittämiseen.Tässätutkimuksessakäytet-tyjä menetelmiäovat äänihuulivärähtelynja ääniväylänmatemaattinenmal-linnus,äänentuotonaikainenilmanpaine-ja virtausmittaus,elektroglottogra-fia sekäinvasiivinen koukkuelektrodeintoteutettuelektromyografia.Ääni-harjoitustenvaikutustenja tavoiteäänenlaadunselvittämisenohessa– niidenmahdollistamana– on tehty selvitystäbiofeedbackinsoveltamisestaäänen-harjoittamiseen.Toistaiseksitestatuinja käytetyin biofeedback-menetelmälaitoksellaonollut reaaliaikainenspektrianalyysi.

Eri puheparametrienviestinnällisenfunktionselvittäminenonlähitulevaisuu-dessaentisestäänvoimistuva aluepuhetekniikanja vokologiantutkimukses-sa.Laitoksessaon selvitettyesimerkiksiäänenlaadunmerkitystäemootioi-denvälittämisessä.Tässätutkimuksessaon hyödynnettysignaalimanipulaa-tiota, erityisestikeinotekoistaperustaajuusmuunnosta(ASL-ohjelma).Niin-ikäänon tarkasteltupuhenopeudenja -korkeudenvaikutuksiapuhujastasyn-tyviin mielikuviin. Tässätutkimuksessaon hyödynnetty(ei-kaupallista)pe-rustaajuudenmuuntolaitetta(kehittäjäJouko Viitanen).

Yksi tapaselvittäääänenlaadunkulttuuristavariaatiotaon eri puheparamet-rien ajallinenseuranta.Viimeaikaisetselvityksetaiheestakäsittelevät nais-opiskelijoidenpuhekorkeuttaja radiopuhujienäänenlaatuaviimeisten20vuo-denosalta.Tämänhetkisettutkimusintressitkohdistuvatmyöskulttuurienvä-lisiin kartoituksiinäänenlaadunja puhekorkeudenarvioinnissa.Käynnissäonesimerkiksivertaileva tutkimus suomalaistenja brittiläistenpuheopettajienauditiivisenevaluoinninyhtäläisyyksistäja eroavuuksista.

Laitoksellaonkäytössäakustistapuheentutkimustavartenvarustettupuheen-tutkimuslaboratorio.Tutkimusäänitykseton tehty vuodesta1967lähtiensa-massavaimennetussastudiossa(suunnittelijaDI T.K. Laakso). Studionkokoon8.6m2, 27.6m3 (jälkikaiunta-aika0.4sek.).Käytettävissäoleviaäänentut-kimus-ja signaalinkäsittelylaitteitaovatspirometri,elektroglottografi,paine-ja virtausmittarisekäkäänteissuodatin,vanhakliininen audiometri,spektria-nalysaattorit,tasomittarija piirturi, oskilloskooppi,terssikaistasuodin,para-

Page 68: Puheentutkimuksen resurssit Suomessaettä ihminen voi välittää tietoa sisäisistä tarpeistaan ja ulkoisesta olemukses-taan organisoimalla liikkeeseen ilman molekyylejä keuhkojen

68 PuheentutkimuksenresurssitSuomessa

metrinenekvalisaattori,kohinanpoistaja,monitoiminenaudiotestauslaite,re-aaliaikainentaajuusmuunnin(kehittäjäJouko Viitanen) sekäperustaajuus-mittari.

Äänianalyyseissäkäytetäänerilaisiakaupallisiaja vapaastisaatavilla oleviaäänisignaalinanalysointilaitteistojaja -ohjelmia:Hewlett-Packard-signaalia-nalysaattoriavartenlaitokselleon kehitettyspektrienkeruu-,normalisointi-ja keskiarvotusohjelma(kehittäjäHeikki Alatalo) sekäSPL- ja spektrilas-kentaohjelma(kehittäjäHeikki Alatalo). Laitoksellaon lisäksi IntelligentSpeechAnalyser(ISA) -signaalianalyysilaitteisto2 (kehittäjäDI Raimo Toi-vonen, PitchsystemsOy). Muita käytössäolevia äänisignaalinanalysointi-laitteistojaja -ohjelmiaovatComputerizedSpeechLaboratory4300B(CSL,Kay Elemetrics),RealSpeech4.2.3 ja Praat4 (kehittäjäPaul Boersma. Pää-koneenaon toistaiseksiMacG4.

LaitoksellaolevissaISA-ohjelmistopäivityksissäon käytettävissäperustaa-juus,äänenpainetaso(mahdollisuusmitataeri taajuuskaistojenäänenpaineta-sojaja niidenerotuksia),signaalinperturbaatio(jitter- ja shimmer-analyysit),signaali-kohina-suhdeanalyysi(spektrinharmonisenaineksenja epäharmo-nisenaineksenvälinenSPL-erotus),FFT-, LPC- ja auditiivinenspektri,kep-stri, fonetogrammija äänikenttäanalyysi.Signaalieditointi,segmenttienra-jausja nimeäminensekämittaustaulukoidenluominentapahtuvat joustavas-ti ohjelmanavulla. CSL-ohjelmistopaketit tarjoavat seuraavat analyysivaih-toehdot:Peruspakettiin kuuluvat FFT-tehospektri,spektrogrammi(sisältääautomaattisenformanttiseurannanja formanttientaajuus-ja kaistanleveysil-maisun),RMS-laskentaja perustaajuudenlaskenta.MultiDimensionalVoice-Program-ohjelmasisältääeri parametrejasignaalinperturbaation,amplitudi-ja perustaajuustremorinja äänenhäiriöisyyden(HNR - harmonicto noisera-tio) mittaamiseenja signaalinkatkeilun ilmaisuun;mukanaon myösspekt-rin kaltevuutta(äänenhypofunktionaalisuutta)kuvaava parametri.MotorS-peechProfile-ohjelmassaon tavutoistonopeuslaskentasekäartikulaationsel-vyyttä kuvaavat perättäistentavujen pituudenja amplitudinvertailu ja F2:nvaihtelumääränja säännöllisyydenilmaisudiftongeissa.Fonetogrammiohjel-ma mittaaäänendynamiikkaaperustaajuudenfunktiona,ja ASL (AnalysisSynthesisLab)mahdollistaaperustaajuudenja formanttitaajuuksienmanipu-loinnin. RealSpeech4.2.tarjoaareaaliaikaisenFFT- ja LPC-spektrin,perus-taajuudenlaskennan,RMS:n, spektrogramminja vokaalikartan.DSP-Sys-temsiltälaitokselleon tilattu LabView-ympäristöönkehitettyohjelma,jossaonseuraavatominaisuudet:SPL-laskenta(integraatioaikavalittavissa),jonkatulos ilmaistaansekäkäyränäajanfunktionaettähistogrammina,alfa-ratio-tulostus(alfa-ratio=SPLyli 1 kHz taajuuskaistalta/SPL0-1 kHz) sekäFFT-keskiarvospektriautomaattisestikahdeltataajuusalueelta(0-5 kHz äänenlaa-dunarviointiavartenja 0-1kHz karkeaaF0-vaihtelunarviointiavarten).

AinoalaitoksellatoistaiseksikäytettykaupallinenpuhetietokantaonKay Ele-metricsinmarkkinoimaPathologicalvoices-CD ROM. Tutkimusperustuupääasiassalaitoksenomaanäänitearkistoon,jota kartutetaanjatkuvasti.Pu-

2 E01,1�n:-mo�o(p�p�pq9 ? )�@�F0)�*0)�E01�%T9s�%�o���n,%,1,��E ? R ? o�'�/�1�% ? %(5�@ A 9<E010J�*3 E01,1�n:-mo�o(p�p�pq9��& ? n03�3���E:9<�(/�J,o�%�F���3��g9HE01�J�*4 E01,1�n:-mo�o(p�p�pq9Hn�&�)�)�1�9m/4&�r

Page 69: Puheentutkimuksen resurssit Suomessaettä ihminen voi välittää tietoa sisäisistä tarpeistaan ja ulkoisesta olemukses-taan organisoimalla liikkeeseen ilman molekyylejä keuhkojen

B. Vastaukset 69

heopin laitoksenäänitearkistosisältääpääosinlaitoksenomassaäänityss-tudiossavuodesta1967 lähtien tallennettuatekstiluentaaja laulunäytteitä.Myös puhujiennäytteitäradiostaon tallennettu.Ennenvuotta1983 tehdyttallenteetsisältävätanalogisestiäänitettyätekstiluentaaja laulunäytteitä;tä-män jälkeentallenteeton tehty digitaalisesti.Äänitettyämateriaaliaei olelitteroitu.

Näytteetovat etupäässästandarditekstienluentaa,kukin näytekestäänoinminuutin.Tekstiton tuotettuneutraalisti,habituaalisellapuhevoimakkuudel-la. Senlisäksi luentaa(sanojaja lyhyitä lauseita)on äänitettyeri voimak-kuuksilla,myösmaksimivoimakkuudellahuudettuna.Tallennettujakielelli-siäja musiikillisia yksikköjäovatesimerkiksi:yksittäinäännetytvokaalit,sa-naluettelot,joissakukin suomenvokaaliesiintyypitkänäpainollisessatavus-sa, tavut (toistonopeuskokeidenyhteydessätuotettuina),hokematja lyhyetmonologit (maksiminopeudellatuotettuina),laulunäytteet(vakiokansanlau-lut ja vapaavalintaisetooppera-aariat),kuukausiennimeteri voimakkuudel-la puhuttuina,lauletut vokaalit, pitkät vokaalit eri korkeuksiltaeri tunneti-loissalaulettuina,näytteetennenja jälkeenäänenkuormitustestinsekäglis-sandoharjoitustenyhteydessätuotetutääninäytteetja äänenkuormitusääntely(numeroidenluotteleminenhyvin suurellaäänenvoimakkuudella).Puhujinaja laulajinaon ollut yliopisto-opiskelijoita (1500 henkilöä),aikuisopiskeli-joita (200henkilöä),näyttelijäoppilaita(200henkilöä),ammattinäyttelijöitä(100 henkilöä),oopperalaulajia(40 henkilöä),radiopuhujia(170 henkilöä),lausunnanharrastajia(80 henkilöä)sekäTV-puhujia(20 henkilöä).Yhteen-laskettu varovainenarvio tallennemäärästäon noin 150 tuntia digitaalisestiäänitettyämateriaalia.Vuosina1967–1983tehdyistäanalogisistaäänityksis-täei ole tehtytoistaiseksimääräarviota.

Käytössäolevapuhetietokantaontarkoituksenmukainen,jaäänitearkistokart-tuu osanaopetustayliopisto-opiskelijoitten ja näyttelijäoppilaittenäänitteis-tä.Koskaäänitearkistoaonkerättyjo 30vuotta,aikaperspektiivissätapahtuvaseurantaon mahdollista.Äänitearkistonpuutteisiinkuuluvat mieskoehenki-löitten vähyys,eri-ikäistenpuhujienniukka edustusja systemaattisestieri-laisistapuhetilanteistakerätynspontaanipuheenvähyys.Näytteeton kerättylaitoksenomiin opetus-ja tutkimustarkoituksiin. Näytteidenlevitykseeneripuheentutkimustahojenyhteiskäyttöävartenei oleerikseenpyydettykoehen-kilöidenlupaa,jotentekijänoikeusjahenkilösuojakysymyksetonselvitettävävaltakunnallisesti,ennenkuin materiaaliavoidaanluovuttaayhteiseentieto-kantaan.

Laitoksellakerätystämateriaalistavoisi olla hyötyäesim.puheen-ja puhu-jantunnistusprojektienmateriaalinaja kehitettäessäuudentyyppisiäsignaa-lianalyysimenetelmiääänenlaadunilmaisuun.Puheopinlaitoksellaollaantoi-saaltakiinnostuneitakäyttämäänmuidentutkimustahojenpuhetietokantoja;erityisestitarvitaanlisää30–50-vuotiaittenhenkilöittennäytteitäeri vuosi-kymmeniltä.Niin ikääntarvitaanerimurrealueittenpuhujiennäytteitäjanäyt-teitäpatologisestaäänestäjapuheesta.KäyttöoikeudensaaminenYleisradionäänitearkistonäänityksiinolisi laitokselleerittäintärkeäasia.Näytteidentek-nisentasontulisi kuitenkinolla hyvä,koskalaitoksellaollaankiinnostuneitaäänenlaadunja muidenpuheteknistenvariaabelienanalysoinnista,ei näyttei-

Page 70: Puheentutkimuksen resurssit Suomessaettä ihminen voi välittää tietoa sisäisistä tarpeistaan ja ulkoisesta olemukses-taan organisoimalla liikkeeseen ilman molekyylejä keuhkojen

70 PuheentutkimuksenresurssitSuomessa

denkielellisestäsisällöstä.

Puheentutkimustuleekehittymäänvilkkaasti Tampereenyliopiston puheo-pin laitoksessalähivuosina.Puheoppiei ole toistaiseksipääaineTampereenyliopistossa,muttalaitoksenpiirissäon siitä huolimattatekeillä tällä hetkel-lä kuusipuhetekniikanja vokologianalanväitöskirjaa,jotkakäsittelevätam-mattiäänenkäyttöäsekääänenharjoittamisenvaikutuksiajaäänenkuormitus-kestävyydenmittaamista.Laitoksenkeskeisiätutkimusprojektejapuheteknii-kanja vokologianalallaovatpuheteknistenmittausnormienkerääminen,ää-nenlaadunja muidenpuheteknistenvariaabelientarkastelu– toisaaltaniidenviestinnällisenmerkityksenkannaltaja toisaaltaaikaperspektiivissälaitoksenäänitearkistonmahdollistamallatavalla– sekäeri tyyppistenääniharjoitustenvaikutuksienja vaikutusperusteidenselvittäminen.Kaikkien näidenprojek-tien lähin sovellusalueon puheopinopetus.Tavoitteenaopetuksessaon li-sätätietämystäpuhepiirteidenviestinnällisestämerkityksestäja auttaakehit-tämäänomaaja muidenpuheviestintääsekäennaltaehkäistäpuheviestinnänongelmia.

B.16 Suomen kielen laitos (HY)

Helsinginyliopistonsuomenkielenlaitoksenjohtajanatoimii professoriPent-ti Leino. Puheentutkimuksenparissalaitoksellatyöskentelee3 henkilöäyli-opistonvirkarahoituksenturvin ja 4 henkilöäerilaisin tutkimusrahoituksin.Yliopiston rahoituskattaaprofessorin,yliassistentinja assistentinvirat, jaSuomenAkatemianprojektirahoitus(jossaprofessoriAnssiPeräkylä onvas-tuuhenkilönä)mahdollistaayhdentutkijan työn.Tutkijakoulu Langnetinyh-teydessälaitoksellatyöskenteleeyksi tohtoriopiskelija. Lukuvuonna2000–2001tutkimustyötäharjoitti yksi tohtoriopiskelija Fulbright-stipendiaattina;lisäksi yksi omarahoitteinenpuheentutkimukseenliittyvä väitöskirjaon vii-meistelyvaiheessa(kesällä2001).

Laitoksellaharjoitettava puheentutkimuskuuluu suomenkielen tutkimuk-seen,keskustelunanalyysiinja kieliopin ja vuorovaikutuksentutkimukseen.Keskustelunanalyysintavoitteenaon tuottaakvalitatiivistatietoasiitä, mitenkieltä käytetäänaidoissatodellisissavuorovaikutustilanteissaihmistenyh-teistoiminnanvälineenä.Tutkimuskohdistuusekävapaaseenarkikeskuste-luun ettäinstitutionaaliseenvuorovaikutukseen,jossaosapuolinaon tavalli-sestimaallikko ja asiantuntija.Arkikeskusteluntutkimusonperustutkimusta:halutaanymmärtää,mitenkieleneri tasojenresurssejakäytetään,kunihmisetpyrkivättulkitsemaanja ymmärtämääntoisiaan.Tutkimuskohdistuuseikkoi-hin, jotkaperinteinenkielitiedeonjättänyt pääosinhuomiotta.Institutionaali-senvuorovaikutuksentutkimuksellaonyhteiskunnallistarelevanssiaesimer-kiksi hoito- ja palvelualankoulutuksessasekäopettajainkoulutuksessa.

Keskustelunanalyysintutkimuskohteenaovat aidot keskustelutilanteet,yhtähyvin arkiset rupattelutkuin ns. institutionaalisetkeskustelutkin,siis esi-merkiksi sosiaalitoimenasiakaskeskustelut,radio- tai televisiohaastattelut,lääkäri-potilas-tilanteet,liik eneuvottelut,oikeudenistunnotja luokkahuoneenopetuskeskustelut.Perustutkimuspainottuipitkäänprototyyppisinäpidettä-

Page 71: Puheentutkimuksen resurssit Suomessaettä ihminen voi välittää tietoa sisäisistä tarpeistaan ja ulkoisesta olemukses-taan organisoimalla liikkeeseen ilman molekyylejä keuhkojen

B. Vastaukset 71

viin arkikeskusteluihin.Niissäesiintyvätkeinot ja tavat asettuvat sittenerimuodoissaanja eriasteisinainstitutionaalistenkeskusteluidenkeinoiksi; ins-titutionaalistenkeskustelujentutkiminenonnäinollenluonteeltaanenemmäntai vähemmänvertailevaa.

Suomalainenkeskustelunanalyysisuuntautuialuksipelkästäänarkipuheeseen,laitoksentutkimusryhmäkeräsins.Alko-aineistonrinnallearkistenpuhelin-keskustelujenkorpuksen.Tätäkorpustaon1990-luvullalaajennettuopiskeli-javoimin ja käytettyjo lukuisissatutkimuksissahyväksi.Tutkimusaiheetovatjakautuneetmoneensuuntaan,on tutkittu esimerkiksineuvotteluita,asiak-kaanja ammattilaisenkeskusteluitaja tv-väittelyitä.Suomalaisenkeskuste-lupuheentutkimuksenrinnalle syntyi 1990 Anne-Marie Londenin hankeSvenskasamtali Helsingfors, jossaontutkittuarkisiakasvokkaiskeskustelujaja radiokeskusteluja.Vuonna1993alkoi Anssi Peräkylän ja Marja-LeenaSorjosen johtamalääkärinja potilaanvälistävuorovaikutustaperustervey-denhuollossakoskeva sosiologienja lingvistien yhteishanke. Uusin avauson keskustelunanalyysinsoveltaminenmediapuheeseen,Liisa Tiittulan jaPirkk o Nuolijär ven1995alkanuthankeVuorovaikutustv-keskustelussa.

Laitoksellaharjoitettavassatutkimuksessaon siis sitouduttuvahvasti nime-nomaankeskustelunanalyyttiseenmetodiin;senavulla saatava tutkimustie-to on selvästikumuloituvaa.Yksi tärkeistäsovelluksistaon iso deskriptii-vinen kielioppi (valmistunee2003), jossakäsitelläänmyös vuorovaikutus-puheenkonventionaalisiakeinoja.Muutentutkimustoteutuuvoittopuolisestiväitöskirjahankkeina,jotka käsittelevät esimerkiksitelevision EU-keskuste-luja,naistenja miestenpuhetta,nuortentyttöjenkertomuksia,demonstratiivi-pronominienkäyttöäkeskustelussa,alkoholiterapiakeskustelujasekälääkä-rin ja potilaankeskusteluja.Keskustelunanalyyttinenajatteluon jo vaikutta-nutmonenlaiseentutkimukseen,esimerkiksiafasiatutkimukseen,lapsenkie-lenkehityksentutkimukseenja semanttiseenja kieliopilliseentutkimukseen.YhteistyötäonmyösnordistiikkaanpaitsiSuomessamyösPohjoismaidenta-solla:laitososaNorFA:n rahoittamaaverkostoaNordisktnätverk för samtal-sanalys,jonka vetäjänäon professoriPer Linell Linköpingin yliopistosta.Yhteydet ovat kiinteät myös yhteiskuntatieteelliseenkeskusteluntutkimuk-seenSuomessaTampereenyliopistonsosiaalitieteidenlaitokseenja Englan-nissaYorkin yliopiston sosiologianlaitokseen.Alustava kontakti on luotumyösprofessoriMikk o Samsinkognitiivisentieteenja tekniikantutkimus-ryhmään(ks.54).

Laitoksentilat ovathajallaan:osaonHelsinginyliopistonpäärakennuksessa,tutkijatilat ovat Kruununhaassa.Laitteistonaon yksi PC tutkijaa kohden,3pientäSony-nauhuriaulkokäyttöön,1 vanhaja 1 digitaalinenvideokamera,yhteensä3-4 kappalettalitterointilaitteita (Dictaphone)sekä2 videolaitetta.Äänitysstudiotaei toistaiseksiole.

Laitoksellaei ole käytössäkaupallistapuhetietokantaa,eikä sille ole tutki-mustyönluonteestajohtuentarvettakaan.Tutkimusperustuulaitoksenomaanäänitearkistoon,jota kartutetaanjatkuvasti;valtaosaaineistokertymästäsaa-daanopiskelijoidenopinnäytetöidenyhteydessä.Keskusteluntutkimuksenar-kisto sisältäänoin 200tuntiatallenteitaC-kaseteillaanalogisessamuodossa.Lisäksiaineistoaonnoin50videokasetilla;vainmuutamatunti materiaalista

Page 72: Puheentutkimuksen resurssit Suomessaettä ihminen voi välittää tietoa sisäisistä tarpeistaan ja ulkoisesta olemukses-taan organisoimalla liikkeeseen ilman molekyylejä keuhkojen

72 PuheentutkimuksenresurssitSuomessa

on tallennettudigitaalisellakameralla.Aineistostaon digitointisuunnitelma,jota ryhdytääntoteuttamaansyksyllä2001.

Aineistonlitterointi on tehtykäsinWP-tiedostoiksi,noudattaenkeskustelun-analyysissakansainvälisesti vakiintunutta litterointitapaa.Päällekkäisyys,tauot, sisäänhengitykset,nielaisut jne on tarkoin merkitty, samointakelte-lut ja itsekorjaukset.Keskustelunanalyysinideologianmukaisestilitterointion osatutkimusprosessia,jotenaineistonmääräei ole ainoaarvo. Litteroin-tia on tällähetkelläkoossanoin30 tuntia,ja litterointia jatketaantehostetustikesällä2001.Aineistostaon olemassakortisto (toistaiseksiMacilla), jonkatietueistakäyvät ilmi kunkin aineistoyksikön kesto,kanava, puhujamäärät,kunkin puhujanikä ja sukupuoli,keskustelunluonne(kasvokkainenkeskus-telu / puhelinkeskustelu;institutionaalinenkeskustelu/ arkikeskustelu)sekäse,onko nauhastalitterointia ja kuinka laaja se on. Pääperiaatteenaon ai-neistonluonnollisuus;koeasetelmiavältetäänaineistonkeruussa.Puhujiltaon saatulupa tutkimuskäyttöönaineistonvaltaosansuhteen;osaaineistostaonsalaista.

Keskustelunanalyyttiseenkäyttöönaineistoon varsin sopivaa,ja jo pelkkälitteroitu puheon suureksihyödyksi laaja-alaistadeskriptiivistä kielioppialaadittaessa.Toisaaltamateriaalistamuille puheentutkimustahoilleolevaanhyötyä rajoittaase,että tallennetuistapuhelinkeskusteluistaon vaikea teh-dä akustistaanalyysia;kasvokkaisetkinkeskusteluton tehty luonnollisissa,useinmeluisissaympäristöissä.Yhteistyötäfoneetikkojen kanssakuitenkintarvitaanerityisestiprosodiikananalysoimisessaja kuvaamisessa;tähäntar-vitaanmyösuuttalaite- ja ohjelmistokantaa.

Keskustelunanalyysinvoi odottaaavaavanuusianäkökulmiamyösklassisiin,paljontutkittuihin kieliopin ydinkysymyksiin(esimerkiksitempustenja pro-nominienmerkityksetja tehtävät),muttaennenkaikkeasemahdollistaain-tersubjektiivisensemantiikankehittämisen,jota ilman ei esimerkiksins.pa-lautemorfeemieneli dialogipartikkelienkuvaustavoi tehdä.On huomattava,ettämetodiinei liity mitäänvalmiiksi soveltuvaa(puheen)syntaksinmalliaeikäinteraktionhuomioonottavaasemantiikkaa.Kunkeskustelunanalyysissakorostetaansitä,ettätutkija ei saaryhtyäanalysoimaanaineistoavalmiidenkategorioidenvarassa,on vaikeatietää,mitä kaikkeatämävaatimuskoskee.Ovatkoesimerkiksisellaisetarkikielensanatkuin kysymys,varaustai juorui-lu jotenkin»sopimattomia»analyysissakäytettäväksi– vai ovatko nekentiesepämääräisyydessäänjopa käyttökelpoisempialähtökohtia kuin monetkie-lioppiperinteestätulevat käsitteet,esimerkiksisivulause,NP tai partisiippi?Onolennaista,ettätutkija ei liitä käyttämäänsäkäsitteeseenvainennaltaluk-koonlyötyjä ominaisuuksiaja merkityksiävaanonvalmismyöntämään,ettäennakkokäsitysvoi muuttuapaljonkinkunhanjonkin keinonkäyttöäymmär-retäänsyvällisemmin.

B.17 Suomen kielen laitos (JYU)

Jyväskylän yliopiston suomenkielen laitoksenjohtajaon professoriMattiLeiwo. Laitoksenpääaineon suomenkieli, erikoisalojaovatmm.suomitoi-

Page 73: Puheentutkimuksen resurssit Suomessaettä ihminen voi välittää tietoa sisäisistä tarpeistaan ja ulkoisesta olemukses-taan organisoimalla liikkeeseen ilman molekyylejä keuhkojen

B. Vastaukset 73

senaja vieraanakielenä-opinnot,estologia(suomensukukielet),hungarolo-gia (Unkarinkulttuuri ja kieli) ja viittomakieli. Puheentutkimustalaitoksellaharjoitetaansuomenkielen omaksumisen,fonologianja prosodiikantutki-muksenalalla.

Tärkeinpuheentutkimushankeonsuomenkielenomaksumisentutkimus,jos-sakartoitetaanerityisestisuomenprosodisenja fonologisenrakenteenkehi-tystälapsillaja senyhteyttämorfologianja syntaksinomaksumiseen.Lisäksitutkitaanlastenmetakielellisiäkykyjä sekälapsenja äidin välistävuorovai-kutusta.Tutkimuksenkohderyhmänmuodostavat dysleksiariskilapsetsekäverrokit; kokonaisotoson 100+100lasta.Tavoitteenaon sekäkartoittaadys-leksianvarhaisetmerkitdysleksiariskilapsillaettätutkianormaalinkielenke-hityksenpiirteitä. Dysleksiaeli spesifilukemisvaikeuson yksi tavallisimpiapsykologisiaongelmia,jasehaittaavakavastidyslektikonkoulumenestystäjakykyäomaksuatietoakirjoitetustatekstistä.TutkimustatehdäänyhteistyössäJyväskylän yliopiston psykologianlaitoksenkanssaJyväskylä LongitudinalStudyof Dyslexia -hankkeessa.ProjektiajohtaaprofessoriHeikki Lyytinen.

Aineistoonkoottuvapaissaleikkitilanteissaja erityisestisuunnitelluissakoe-tilanteissa;kielelliset tehtävätliittyvät kuvannimeämiseen,imitaatioon,ha-vaitsemiseenja tarinankertomiseen.Tutkimuskartoittaakielellisten tehtä-vien onnistumistaseuraavina ikäkausina:6 kk (päänkääntörefleksi,reagoi-minenpitkänja lyhyenkonsonantinkestoerooneli kvantiteettioppositionha-vaitseminen),1 v 6 kk (pitkän ja lyhyen konsonantinjäljittelytehtäväelikvantiteettioppositiontuottaminen),2 v (keskusteluaineisto:ensisanojenpro-sodinenja fonologinenrakenneja taivutus,morfosyntaksi),2 v 6 kk (keskus-teluaineistotja sanojentuottamisaineistot:sanojenfonologinenja prosodinenrakenne,ensimmäisetmorfologisetrakenteetja syntaksi),4 v 6 kk (»sam-makkotarinoiden»syntaktinenrakenne),5 v (kvantiteetinkategorisointi),6 v6 kk (kestonauditorinenhavaitseminen)ja 7 v (lukeminen,kirjoittaminenjametakielellisettaidot).Lisäksi tutkitaansuomenkielenensisanoja(7 kk – 1v 6 kk), viron kielenensisanojenprosodiikkaasekälukemisenja kirjoittami-senkehittymistäensimmäistenkouluvuosienaikana.Aikuistendyslektikko-jen kirjoittamistaon myöstutkittu, ja tutkimuslaajennetaanala-asteikäisiinoppilaisiin.

Dysleksiantutkimusedellyttääsekäpsykologistaettäkielitieteellistäasian-tuntemusta.Kuulo- ja aivotutkimuksenavulla löydettyjenpoikkeavuuksienlisäksitietyt kielellisetindikaattoritennustavatdysleksiariskiä.Suomenkvan-titeettioppositioedellyttäätäsmällistäpuheentemporaalistenseikkojen hal-lintaa ja häiriintynyt kvantiteetintuottaminenja dekoodauson osoittautunuthyväksi dysleksiariskinennustajaksi.Suomentaivutusmorfologiaon myöshyvin monimutkainenjärjestelmä,ja siinäesiintyvätongelmatovatniinikäänindikaattoridysleksianmahdollisuudesta.

Tutkimustapahtuusuomenkielen laitoksentiloissa,laboratoriotutkimukseton tehtypsykologianlaitoksenlaboratoriossa.Projektissaon johtajanlisäksitutkijatohtori,jokatyöskenteleetällähetkelläLontoonUniversityCollegessasekäneljä tutkijaa, joista yksi työskenteleeyliopiston virkarahoituksentur-vin, kaksiLangnet-tohtorikoulunrahoituksellaja yksi omallarahoituksella.

Page 74: Puheentutkimuksen resurssit Suomessaettä ihminen voi välittää tietoa sisäisistä tarpeistaan ja ulkoisesta olemukses-taan organisoimalla liikkeeseen ilman molekyylejä keuhkojen

74 PuheentutkimuksenresurssitSuomessa

Tutkimusaineistot– jäljittelytehtävät(1 v 6 kk), keskusteluaineistot(2 v, 2v 6 kk, 4 v 6 kk) ja sanojentuottamistehtävät(2 v 6 kk) – on pääosintal-lennettudigitaalisestikaseteilleja videokaseteille.Äänitteeton tehtyyleen-sä leikkitilanteidenyhteydessä,mikä heikentääsignaalinlaatuaja vaikeut-taa foneettisiamittauksia.Transkriptioon tehty foneettisestimahdollisim-mantarkasti,sekäprosodiikanettääänteidenosalta.Akustinenanalyysiteh-däänSoundscope-ohjelmanavulla (tutkimuksenkohteenaesimerkiksiääntei-denkestosuhteet).SpontaanipuheanalysoidaanChildes-ohjelmisto-paketinavulla (Child LanguageDataExchangeSystem);kirjoituksentutkimukses-sakäytetäänScriptlog-ohjelmaa.Tietokoneinalaitoksellaon PC-koneitajakaksiMacintoshia.

Tutkimustuleejatkumaanainakinvuoden2005loppuun.Yhteistyötätehdäänmm.Lundinyliopistonkielitieteenlaitoksenja Bangorinyliopistonpsykolo-gianlaitoksenkanssa.Tulevina vuosinatutkimuksenvoidaanodottaatuotta-vanmerkittäviäuusiakeinojadysleksiariskintunnistamiseksi,joiden avullahoitoavoidaannopeuttaaja tehostaa.

B.18 Suomalaisen ja yleisen kielitieteen laitos (TUY)

Turunyliopistonsuomalaisenja yleisenkielitieteenlaitoksenjohtajaonpro-fessoriSirkka Saarinen (suomalais-ugrilaisenkielentutkimuksenprofesso-ri), LauseopinarkistonjohtoryhmänpuheenjohtajaonprofessoriKaisa Häk-kinen. Suomenkielen oppiaineessatyöskentelee22 henkilöä,joista välilli-sestipuheentutkimuksenparissatyöskentelee6 henkilöä.Rahoitustuleeyli-opistonperusrahoituksestaja SuomenAkatemianprojektirahoituksesta.

Laitoksessaharjoitettavankielitieteellisentutkimuksenpainopistealueetovatsuomenyleiskielenja murteidensyntaksintutkimus,Itämerenpiirin kieltenkieliopillinen vertailu,suomenkielenomaksuminen,suomensananmuodos-tus ja Satakunnankansankielenja vanhannimistön tutkimus.Suomenkie-len oppiaineessaei ole tällä hetkelläerityisestipuheentutkimukseenliittyviähankkeita.Yksittäisettutkijat tekevät kuitenkin murretutkimusta,sosioling-vististätutkimustaja variaationtutkimustasekälapsenkielenomaksumiseenliittyvää tutkimusta.Suurin yksittäinenpuheentutkimukseenliittyvä hankeon oppiaineessaollut Nykysuomalaisenpuhekielenmurros-hankkeenTurunosaprojekti1980-luvulla.

Suomenkielen äänitearkistoon nauhasto.Äänitearkistosisältää7000 tun-tia (analogisia)avokelanauhoja;näistä5500tuntiaon alkuperäisäänitteitäja1500 tuntia kopionauhastoalähinnäSuomenkielen nauhoitearkistosta.Al-kuperäisaineistoonkuuluu 4600 tuntia suomenmurteidennauhoitteita,30tuntia sukukieltennauhoitteita,80 tuntia sosiaalistenmurteidennauhoittei-ta,190tuntiaTurunpuhekielennauhoitteita,120tuntianykypuhekielennau-hoitteitaja noin200tuntiamuitanauhoitteita.Lisäksiäänitearkistoonkuuluukaksi erilliskokoelmaa,kotiseutuneuvos Väinö Tuomaalan nauhasto(180tuntia eteläpohjalaisiamurreäänitteitä)ja Matti Rautiomaan nauhasto(46tuntiaPunkalaitumenmurretta).MurrenauhastossaovatedustettuinalähinnäLounais-Suomenmurteetja satakuntalaismurteetsekäjossakinmäärinete-

Page 75: Puheentutkimuksen resurssit Suomessaettä ihminen voi välittää tietoa sisäisistä tarpeistaan ja ulkoisesta olemukses-taan organisoimalla liikkeeseen ilman molekyylejä keuhkojen

B. Vastaukset 75

läpohjalaisetmurteet;muita murrenauhojaon satunnaisestiympäri maata.Parhaitenedustettuinaovat lounaismurteetja lounaisetvälimurteet,joistaonvähintään30 tunninkokoelmajoka pitäjästä.

Valtaosanauhoituksistaon tehty1960-ja 1970-luvulla.Murteidenosaltaää-nitearkistoakartutettiinsystemaattisestivuoteen1975saakka,jolloin saatiinpäätökseenarkistonkeruutavoite (30 nauhatuntiaaitoa kansanmurrettajo-kaisestalounaismurteidenja lounaistensiirtymämurteidenalueenpitäjästä).Tämänjälkeensystemaattistakeruutaei ole jatkettu.Nauhoittajinaovat ol-leetlaitoksenvalitsematja kouluttamatstipendiaatitja varsinkinalkuaikoinamyöslaitoksenhenkilökunta.

Vuoden1975jälkeenarkistoononkertynyt jonkin verranuuttaaineistoa,etu-päässätutkimusprojektienaineistoksihankittujaja opiskelijoiden harjoitus-töinäännauhoittamiaäänitteitä.Tässänoin200tunninlaajuisessaaineistossaon sekäalueellisiaja sosiaalisiamurteitaettämuutapuhekieltä,esimerkiksiTurunpuhekielennauhoitteita,ja lisäksiesitelmienja puheidennauhoituksia.

Äänitearkistonmateriaaliaon käytettyluotaessaLauseopinarkistonalueel-listenmurteidenperuskorpusta,samoinmonienerillistentutkimusprojektiensekäopinto-ja harjoitustöidenaineistona.Alkuperäinenmateriaali(äänitear-kisto) koostuuvaltasosinperinteisistämurrehaastatteluista.Aineistostavainosaon litteroitu. Litteroitu aineisto(Lauseopinarkistonmateriaali)on ääni-teaineistonpohjaltalaadittukooditettutekstikorpusilman ääninäytteitä(pu-hutunkielensanoihinon liitetty morfologinenja syntaktinenkooditus).Ai-neistoon litteroitu karkeantranskriptionmukaan:litterointi sisältäätauot,puheenvuoronvaihdotja lausepainon.Puhujistaon tarkattiedot (ikä, suku-puoli, haastattelupäivämäärä).Lauseopinarkistonpuhujatiedostoton tallen-nettusähköiseenmuotoon.Henkilötiedoteivät ole julkisia, muutenaineistoon tutkijoidenvapaassakäytössä.

Äänitearkistolleonvarattulaitoksellaomanauhavarastojaäänitysstudio.Lau-seopinarkistonkäytössäon työhuone,jossaon tietokone(Pentium-PC,Win-dows 98) oheislaitteineen(skannerija tulostin).Lisäksi Lauseopinarkistonkäytössäonomahakuohjelma,muttaohjelmaonvanhentunutja sitäonhan-kalayhdistäätoisiin ohjelmiinjakorpuksiin.Uudempiversiohakuohjelmastaonkoekäytössä.

Suurinosaaineistostaon avokelanauhoilla;vain pieni osaon C-kaseteilla.Aineistoonpääosinhyvässäkunnossa,muttadigitoimininenolisi materiaalinsäilymisenturvaamiseksitarpeen.Digitointi myös mahdollistaisiaineistontarkoituksenmukaisemmankäytönja levittämisen.

Äänitearkistoja Lauseopinarkistomahdollistavatmonipuolisensuomenkie-len tutkimuksenja sitenpalvelevat tutkimuksentavoitteita hyvin. AineistoakäytetäänmyösTurunyliopistonulkopuolella,kiinnostusmurreaineistoihinon tällä hetkelläselvästilisääntymässä.

Page 76: Puheentutkimuksen resurssit Suomessaettä ihminen voi välittää tietoa sisäisistä tarpeistaan ja ulkoisesta olemukses-taan organisoimalla liikkeeseen ilman molekyylejä keuhkojen

76 PuheentutkimuksenresurssitSuomessa

B.19 Suomen kielen ja kulttuuritieteiden laitos (JOY)

Suomenkielenoppiaineenvastuullinenjohtajaon professoriIlkka Savijär -vi. Suomenkielentutkimuson laajakontekstikaikelle harjoitettavalle tutki-mukselle.Suomenpuhekielenosaltatutkimuksessaon kaksipainoalaa:suo-menmurteetja muupuhekieli(suomenkielenalueellinenja sosiaalinenvaih-telu)sekäitämerensuomalaistenkieltenkontaktit.Tutkimustatehdäänkielenkaikilla tasoilla,fonologian,morfologian,syntaksinjasanastonosalta.Lisäk-si laitoksessaharjoitetaanpragmatiikantutkimustaja suomivieraanakielenä-tutkimusta.

Oppiaineessaonkuusivakituistavirkaa.Viranhaltijoistaviisi tutkii puhuttuakieltä omistanäkökulmistaan.Lisäksioppiaineessaon joukko jatko-opiske-lijoita, joista kuusi tutkii varsinaisestipuhekieltä.Oppiaineessaon toiminutSuomenAkatemianrahoittama,Ilkka Savijär ven johtamaprojekti, jossaontutkittu Inkerinmaansuomea(rahoitushankkeelleon päättynyt). Jatko-opis-kelijoista kahdellaon ollut vuosina2000–2001SuomenKulttuurirahastonapuraha.

Kaikilla tutkijoilla onkäytössääntietokone,jossaonWindows95tai 98käyt-töjärjestelmä.Ääninauhojavoi kuunnellatyöhuoneessatai erillisessäarkis-tohuoneessa.

Laitoksenäänitearkistonmuodostaaaineisto,josta valtaosaon analogisillaääninauhoilla(suurinosaon kelanauhoilla;osa,noin 300tuntia,on C-kase-teilla). Varsinaisiatietokantojaon vain inkerinsuomentutkijoilla, jotka ovatkoodanneetlitteroimiaannauhoitteitatiedostoiksi(verkossaon noin puolituntiainkerinsuomeaelektronisenakorpuksena).Omanlaitoksenmateriaaliaon noin 1000tuntia, mutta tutkijoiden käytettävissäovat Kotimaistenkiel-tentutkimuskeskuksensuomenkielennauhoitearkistonkokoelmat,joissaonnoin 16 000 tuntia suomenmurteita.Pragmatiikantutkijat käyttävätlisäksiJyväskylänyliopistonkanssayhteisiäaineistoja.

Aineisto sisältääenimmäkseen(kahdenkeskisiä)murrehaastatteluja.Muka-na on myös lastenkieltä ja keskusteluja(varsinaisiakeskustelunauhoitteitaonnoin10 tuntia).Murrenauhoitteitaei annetamuidenkuin laitoksenomientutkijoidenkäyttöön,koskahaastateltavathenkilötkertovatuseinhyvin hen-kilökohtaisiaasioita(tällaisiatietoja ei ole tarkoituksellisestikysytty, muttatunninkinpituisessahaastattelussapuheenaiheetvaihtelevat, ja haastateltavavoi puhuamyösluottamuksellisistaasioista).

Kukin tutkija on litteroinut aineistoaanomiin tarkoituksiinsasoveltuvin pe-riaattein.Yleensäonkäytettypuolikarkeaatranskriptiota.Taukojaei yleensäole merkitty, muttaepäselvästikuullut kohdaton merkitty sulkeisiin. Puhu-jista on arkistoitutavallisimmathenkilötiedot:nimi, syntymäaikaja paikka,ammatti,vanhempienasuinpaikat,omaasuinpaikkaja asuinpaikanvaihdok-set.Osakäytetyistälitteroinneistaon tehtypaperille(litteraatiotonarkistoitumappeihin),muttauudemmat1990-luvultaperäisinolevat litteroinnit on tal-lennettutietokoneelletiedostoiksi.

Laitoksessapyritäänsiihen,ettädigitaalistenäänitteidenyleistyessäaineis-to voidaankäsitellätietokoneellalitterointiohjelmanavulla, jolloin nauhuria

Page 77: Puheentutkimuksen resurssit Suomessaettä ihminen voi välittää tietoa sisäisistä tarpeistaan ja ulkoisesta olemukses-taan organisoimalla liikkeeseen ilman molekyylejä keuhkojen

B. Vastaukset 77

ei enäätarvita.Toistaiseksidigitaalisessamuodossaolevaaaineistoaei juuriole. Kaikki suomenkielen laitoksetkäyttävätKotimaistenkielten tutkimus-keskuksensuomenkielennauhoitearkistonaineistoa;jokaisellalaitoksellaonlisäksi omia aineistoja,joita ulkopuolisettutkimustahotharvoin tarvitsevat.Suomenkielennauhoitearkistossaonvuonna1999aloitettuanalogistennau-hoitteidendigitointi. MuutamanvuodensisällälieneemahdollistasaadaKo-tuksendigitaalisessamuodossaolevaaaineistoaverkon kauttaomalletieto-koneelle.Samallatavallaolisi tarpeellistadigitoidaJoensuunyliopistonsuo-menkielenja kulttuuritieteidenlaitoksensuomenkielinenääniteaineisto.

Nauhoitearkistojendigitaalistuminenhelpottaaratkaisevasti aineistonlitte-rointia. Tämäonkin suurinmuutos,joka lähivuosinakoskettaakaikkia mur-teiden ja puhekielentutkijoita. Juuri nyt murteidentutkimus on nousussayleisenmurreharrastuneisuudenja kiinnostuksenlisäännyttyä. Suomenkie-len ja kulttuuritieteidenlaitoksessajärjestetäänyhdessäenglanninkielenai-nelaitoksenkanssadialektologianmetodejakoskevakansainvälinenkongres-si elokuussa2002 (MethodsXI), joka osaltaankiinnittää huomiotatutki-musalaan.Valtakunnallisestipuhekielentutkimuson laajentunutasioimisti-lanteidenanalysointiinja keskusteluntutkimukseen,mikä synnyttääedelleenuusiatutkimushaasteitaja hankkeita.

B.20 Suomen kielen ja yleisen kielitieteen laitos (TAY)

TampereenyliopistonSuomenkielen ja yleisenkielitieteenlaitoksenjohta-ja on professoriMatti K. Suojanen. Puheentutkimuslaitoksellakuuluuesi-merkiksisuomenkielen,fonetiikan,sosiolingvistiikanja pragmatiikantutki-muksenalueeseen.Erityisestipuheentutkimustaharjoitetaanseuraavilla eri-tyisalueilla:distinktiivisenkvantiteetintuottaminenja havaitseminensuomenkielessä,fonologia,funktionaalinenkielioppi, keskusteluntutkimus,lapsen-kielenesi- ja varhaismorfologiantutkimus,puheendynaaminenluonne,pu-heenrytmi ja ajoitusseikat,puhutunkielen rakenteetja niiden merkitykset,sosiofonetiikka,semanttis-pragmaattinentutkimuspuhekielensanastostajavariaationtutkimus.Puheentutkimusliittyy myös metateoriaan,joka yhdis-tääerilaisiaempiirisiätutkimushankkeita:laitoksellakehiteltäväkielitieteenemergentistinenmetateoriaonkehysuseilletutkimussuuntauksille.

Kielentutkimusyleensäottaaenenevässämäärinhuomioonsemanttis-prag-maattisetjasosiaalisetnäkökulmat.Fennistiikassasosiolingvistinentutkimuson luonteva murteidenja muun puhekielentutkimuksenjatke, joka kaipaaorganisoitumistamm. tutkimustyönpäällekkäisyyksienvälttämiseksija tie-topankkienperustamiseksi.Suomenkielen sosiolingvistisentutkimuksenjaopetuksenkehittäminenonasetettuvaltakunnallisessatyönjaossaTampereenyliopiston suomenkielen ja yleisenkielitieteenlaitoksenvastuulle.Tähänlaitoksellaonmyösparhaatedellytyksetjo tähänastisenprofiloitumisensape-rusteella:laitoksenyhteyteenon1.8.1997perustettusosiolingvistiikanyksik-kö, jonkatehtävänäonkartoittaasuomenkieleneri muotojenasemaa,niidenkäyttöäja huoltoasekäsuomalaistenkielellisiä asenteitalähivuosikymme-nienaikana.Huomiotakiinnitetäänmyössuomenja muidenpientenkieltenasemaanEuroopanunionissaja siihen,mitentämäasemavaikuttaaSuomen

Page 78: Puheentutkimuksen resurssit Suomessaettä ihminen voi välittää tietoa sisäisistä tarpeistaan ja ulkoisesta olemukses-taan organisoimalla liikkeeseen ilman molekyylejä keuhkojen

78 PuheentutkimuksenresurssitSuomessa

kielitilanteeseen.Yksikkö onkiinteäosalaitosta,ja laitoksenhenkilökunnantyöpanostasuunnataanyksiköntehtäviin.

Laitoksellatyöskentelee19henkilöä;välittömästitai välillisestipuheentutki-muksenparissaheistätyöskentelee16.Laitoksellaon 3 professoria,5 lehto-ria, 2 assistenttia,5 tutkijaa,1 tuntiopettaja,1 amanuenssi,1 toimistosihteerisekä1 atk-amanuenssi.

Laitoksenpuhetietokannatmuodostuvat tutkimustarkoituksiin kerätyistäai-neistoista,joita ovat seuraavat: Tampereenpuhekieli -aineisto,Tampereenmuuttajatutkimus-aineisto,Sanastoja maailmankuva -aineisto,Virtain suo-menkielenaineisto,Tampereenseudunpuhekieli-aineisto,Meänkielenai-neisto,Pekka Lehtimäen kokoamaaineisto,EsaLehtisenkokoamakeskus-telunaineistoja Klaus Laalon kokoamaaineisto.Lisäksi opinnäyte-ja har-joitustöidenyhteydessäonkerättysuomenkielenaineistoja.

Tampereenpuhekieli-projektinyhteydessäkerättyaineistokoostuunauhoi-tetuistahaastatteluista,jotkakerättiin1977osanaSuomenAkatemianrahoit-tamaaNykysuomalaisenpuhekielenmurros -tutkimushanketta.Aineisto laa-jennettiin1997haastattelemallaalkuperäiseenkohderyhmäänkuuluviahen-kilöitä. Aineistoaon noin 120 tuntia analogisestitallennettuna(osin avoke-lanauhoina,osinkasetteina).Materiaalisisältää72syntyperäisentamperelai-senhaastatteluitasekävuodelta1977ettävuodelta1997(kukin otoson nointunninmittainen);haastateltavatkuuluvatkolmeeneri ikäryhmään.Henkilö-tietoja on kerättyasuinpaikasta,koulutuksesta,ammatista,puolisonamma-tista,puolisonsyntymäpaikasta,vanhempienammateistaja vanhempiensyn-tymäpaikoista.Karkeat transkriptioton olemassakoko aineistosta;vuoden1997haastattelunlitterointi on sähköisessämuodossa,vuoden1977haastat-telunlitterointi onvainpaperimuodossa.

Tampereenmuuttajatutkimuksenyhteydessä1978kerättyaineistosisältääPoh-jois-KarjalastaTampereellemuuttaneidenhenkilöidenpuhekielentallenteita.Aineistoaon noin 75 tuntiaanalogisestitallennettuna(suurinosaon avoke-lanauhoilla).Aineistosisältää24eri-ikäisenmuuttajantunninmittaisethaas-tattelut.Koko aineistoon litteroitu (litterointi onpaperimuodossa).

Sanastoja maailmankuva-hankkeenyhteydessäkerättyaineistosisältäätam-perelaistenammattikoululaisja lukiolaisnuortenhaastattelujavuodelta1991(puhujiaon 24 ja heovat iältään16–17-vuotiaita).Nuoretkertovat koulus-ta,harrastuksistaanja tulevaisuudennäkymistään.Aineistoaon24tuntiaana-logisessamuodossa(C-kaseteilla);koko aineistostaon olemassalitteraatiosähköisessämuodossa.

Virtain aineistosisältääVirroilla nauhoitettujahaastatteluita.Haastateltavatkuuluvat moneenikäryhmään(syntymävuodetvaihtelevat vuosien1880 ja1979välillä). Aineistoaonnoin120tuntiaanalogisessamuodossa(sekäavo-kelanauhoillaettäC-kaseteilla).Suurinosaaineistostaon litteroitu (pieniosalitteraatiostaon sähköisessämuodossa).

Meänkielentutkimushankkeenyhteydessäkerättyaineistomahdollistaaver-tailun 1990-luvunja 1960-luvunmeänkielen välillä. Tutkimus käynnistyi1991Tampereenja Tukholmanyliopistojenyhteistyöhankkeena.Aineistoa

Page 79: Puheentutkimuksen resurssit Suomessaettä ihminen voi välittää tietoa sisäisistä tarpeistaan ja ulkoisesta olemukses-taan organisoimalla liikkeeseen ilman molekyylejä keuhkojen

B. Vastaukset 79

on noin 25 tuntia analogisessamuodossa(avokelanauhoina).HaastateltavatovatMatarenginkylästä(18henkilöä)ja Aapuankylästä(26henkilöä).Suo-menkielen nauhoitearkistonmateriaaliakäytetäänvertailuaineistona1960-luvulta.Aineistoon litteroitu (vainpaperimuodossa).

Pekka Lehtimäen kokoelmatsisältävätmonentyyppisiähaastatteluäänittei-tä.Aineistoaonnoin50tuntiaanalogisessamuodossa(osaavokelanauhoilla,osaC-kaseteilla).Osastaaineistostaonlitterointi paperimuodossa.EsaLeh-tisenkeskusteluaineistosisältääraamatuntutkiskelukeskusteluja,jotkaonnau-hoitettuaidoissavuorovaikutustilanteissa.Aineistoaon noin 7 tuntia analo-gisessamuodossa(nauhoituson tehty Nagra-nauhurilla).Koko aineistoonlitteroitu Word-tiedostoihinkeskustelunanalyyttistenstandardienmukaises-ti. Klaus Laalon aineistosisältäälastenleikkitilanteissatuottamaavapaa-ta puhetta.Aineistoon analogisessamuodossaC-kaseteilla.TranskriptioonCLAN-systeeminmukainen(litterointi onkesken).

Harjoitustöidenyhteydessäkerättyäaineistoaonnoin100tuntia(analogises-samuodossa,pääosinC-kaseteilla).Erillisiä äänitteitäonyhteensänoin300.Osaaineistostaon litteroitu.

TutkimuksessakäytetäänyhteistyössäTampereenyliopiston puheopinlai-toksenkanssapuheentutkimuslaboratoriota.KäytettäviäohjelmistojaovatSoundscope(puheenkäsittely),Praat(puheenkäsittely),CLAN ja CHILDES(lapsenkielentutkimus),Atlas.ti (kvalitatiivisenaineistonkäsittely),Mathe-matica(datankäsittelyja mallien kehittely) sekäMacAnova (tilastoanalyy-sit).

Laitoksellaolevanpuheaineistonkäyttöarvoalisäisi huomattavastimateriaa-lin digitointi. Akustinenanalyysi,transkriptioidenmääränja tarkkuudenli-sääminenja litteroinnin siirtäminensähköiseenmuotoonsekälitteraatioidenliittäminen digitoituun ääneenlisäisivät ratkaisevasti aineistonarvoa tutki-muskäytössä.

B.21 Suomen kielen jaos (OY)

Oulun yliopiston suomenja saamenkielen ja logopedianlaitoksenjohtaja-na toimii professoriHelena Sulkala. Suomenkieltä koskeva puheentutki-mus kuuluu suomenkielen jaoksessayleiseensuomenkielen tutkimuksenalaan:aluemurteiden,puhekielenja lastenja kouluikäistenkielen tutkimuk-seen.Tutkimuksentavoitteinaonollut erityisestiPohjois-Suomenmurteidenja puhekielentutkimus,lapsenkielenkehityksenseurantaja erilaistenja eri-ikäistenosanottajienkeskustelujentutkimus.

Jaoksenhenkilökuntaankuuluu2 professoria(suomenkieli), 4 lehtoria(suo-menkieli 2, viron kieli 1 ja yleinenkielitiede1), 1 yliassistentti(suomenkie-li), 1 assistentti(suomenkieli), 2 tutkijaa(suomenkieli: Lehtori AnnaVuo-rion säätiönpuolivuotinenapuraha31.5.01astija opetusministeriönrahoitta-mavirtuaalisuomenVISU-projekti 31.12.2001asti),1 tuntiopettaja(unkarinkieli, sivutoiminen),1 amanuenssisekä2 toimistosihteeriä.

Jaoksessasijaitseevuonna1967 perustettuOulun nauhoitearkisto(ONA),

Page 80: Puheentutkimuksen resurssit Suomessaettä ihminen voi välittää tietoa sisäisistä tarpeistaan ja ulkoisesta olemukses-taan organisoimalla liikkeeseen ilman molekyylejä keuhkojen

80 PuheentutkimuksenresurssitSuomessa

jossaon säilytteilläomia aluemurrenauhoitteitanoin 4000 tuntia,kopioitu-ja aluemurre-nauhoitteitanoin1420tuntia,puhekielennauhoitteitanoin700tuntia ja lastenja koululaistenkielen nauhoitteitanoin 465 tuntia. Lisäksinauhoitearkistossaon saamenkielen nauhoitteita(noin 110 tuntia),suomenja viron kontrastiiviseentutkimukseenliittyvää materiaalia,suomi-karjala-vepsä-projektin nauhoitteita,kulttuurihistoriallisianauhoitteitasekäoulu-laista juhlaperinnettäkoskevia nauhoitteita.Oulun nauhoitearkistoon Suo-menlaajimpiasuomenkielennauhoitearkistoja.Arkistolla sinänsäon arvoakansallisenkulttuurin ja fennistiikantutkimusperinteidenylläpitäjänä.Ou-lun nauhoitearkistonpainopisteon erityisestiPohjois-Suomenalueeltake-rätyn puheaineistontallentamisessa.Merkittäväosuusarkistonnauhoitteis-ta on koottu opiskelijoiden tallennustöinä.Nauhoitearkistonkokoelmia onhyödynnettylaitoksenopinnäytetöissäproseminaariesitelmistäväitöskirjoi-hin asti. Arkisto on edelleenkinopiskelijoiden ja tutkijoiden käytössä.Tal-lenteetovat läheskokonaananalogisessamuodossa.Laitosellaei olekäytös-säkaupallistapuhetietokantaa.

Murrenauhoitteidenkokoelmasisältäänoin 4000 tuntia omia nauhoitteita.Valtaosamateriaalistaon avokelanauhoilla,lisäksi materiaaliaon noin 15tuntia C-kaseteillaja 10 tuntia DCC-kaseteillasekä9 tuntia videokaseteil-la. Vanhimmatnauhoitteetovat1960-luvunlopulta.Osavanhemmastamate-riaalistaalkaaolla heikossakunnossa,läpikopioitumistaon tapahtunuthuo-mattavasti.Tavoitteenaonollut kerätämateriaaliakattavastikaikistasuomenmurteista.Puhemateriaalion kerättyvapaissapuhetilanteissa,joita haastat-telija on ohjannutlyhyillä kysymyksilläja kommenteilla.Informanteiksionpyritty valikoimaanmahdollisimmanpuhdastamurrettapuhuviahenkilöitä(puhujien ikä, ammatti,koulutus,syntymäpaikka,asuinpaikanvaihdokset,sukutaustayms.tekijätonotettuhuomioon).Haastattelutilanteestaonpyrittyluomaanmahdollisimmanrauhallinenja kiireetön,ylimääräisethäiriötekijätonmahdollisuuksienmukaankarsittu.Osamateriaalistaonlitteroitu käyttäensuomalais-ugrilaistatarkekirjoitusta,ja osastaon laadittumyössisällysluet-telot.Useimmistahaastatteluistaon laadittukeruukertomukset,joissaonesi-telty mm.informantinhenkilötiedot,puhutunmurteenkeskeisetpiirteetsekähaastattelunkulku ja nauhoituksessamahdollisestikuuluvat häiriöt.Opiske-lijoiden opinnäytetyötkartuttavatmurrenauhoitteidenkokoelmaaedelleen.

Puhekielenkokoelmakoostuusosiaalimurteidennäytteistä,vapaanyleispu-hekielenaineistostasekäkansanedustajienkielen aineistosta.Vapaanyleis-puhekielenotoksenmuodostavat Kuka kukin on -teoksestaarvotut 14 Hel-singissäasuvaaeri alanedustajaaja Oulun poliisilaitoksenväestörekisteri-kortistostaarvotut 16 Oulussaasuvaaylioppilastutkinnonsuorittanuttahen-kilöä. Kutakinhenkilöäonhaastateltupuoli tuntia,yhteensäaineistoaonsiis15 tuntia.Kansanedustajienkielen aineistokoostuu54 kansanedustajanvi-rallisistaeduskuntapuheistaja epävirallisistahaastatteluista.Aineistoon tal-lennettunanauhoitteina,litteraatteina,reikäkortteinaja magneettinauhoina.Nauhoitteetovat vuosilta 1968 ja 1969, ja niitä on yhteensänoin 15 tun-tia. Sosiaalimurteidenkokoelmakoostuuopiskelijoidentekemistähaastatte-luista. Materiaaliaon noin 650 tuntia: valtaosaon avokelanauhoilla,pieniosaon C-kaseteilla(37 kpl) sekäDCC-nauhoilla(11 kpl), ja noin 30 tun-tia aineistoaon MD-levykkeillä. Tutkimuksenkohteenaovat esimerkiksieri

Page 81: Puheentutkimuksen resurssit Suomessaettä ihminen voi välittää tietoa sisäisistä tarpeistaan ja ulkoisesta olemukses-taan organisoimalla liikkeeseen ilman molekyylejä keuhkojen

B. Vastaukset 81

paikkakuntiennykypuhekieli,puhujienikäryhmänja ammatinvaikutuspu-hekieleen,tilannevariaatiosekäulkomaalaissuomi.Haastattelutilanteessaonpyritty noudattamaansamojaperiaatteitakuin aluemurteidennauhoituksissa.Koskahaastattelujaontehtyrunsaastijulkisissarakennuksissakutenoppilai-toksissaja kirjastoissa,ulkopuolistahälyäon nauhoituksissarunsaasti.En-simmäisethaastatteluton tehty vuonna1973.Sosiaalimurteidenkokoelmakarttuuedelleen.

Lastenja koululaistenkielen nauhoitteitaon yhteensänoin 465 tuntia.Val-taosaaineistostaon äänitemateriaalia,nykyäänkokoelmaakartutetaanyhäenemmänvideoimalla.Varhaisinmateriaalion vuodelta1973, jolloin ns.Oulun-otoksenseuruualkoi. Nauhoitteetovat lisääntyneetpääosinopiske-lijoiden tallennustöidenyhteydessä.Nauhoitustilanteeton pyritty järjestä-määnmahdollisimmanluonnollisiksi,jotennauhoituspaikkanaonyleensäol-lut lapsenkoti. Materiaaliaon tallennettukodinnormaaleistatilanteista,jois-salapsi katseleekuvakirjoja, leikkii, piirtää tai ruokailee.Useimmissanau-hoitteissalapsenkanssaseurusteleejompikumpilapsenvanhemmista,muttaarkistossaonmyösmateriaalia,jossanauhoitettavina tai kuvattavina onvainlapsia.Yleensätallennustilanteissaei ole ollut mukanavieraitahenkilöitäjatallennuson tehty mahdollisimmanhuomaamattomasti.Osaaineistostaonlitteroitu uusimpiakeskusteluntutkimuksenperiaatteitakäyttäen:päällekkäi-syys,tauot,sisäänhengitykset,nielaisutjne on tarkoin merkitty, samointa-keltelutja itsekorjaukset.

Materiaalinnauhoittamiseen,kuunteluunja kopioimiseenlaitoksellaonkäy-tettävissäuseitaTandberg-avokelanauhureita,3 Uher-avokelanauhuria,5 Re-vox-avokela-nauhuria,3 kasettinauhuria,5 DCC-nauhuria,3 MD-nauhuria,3 videolaitettasekäMac-tietokoneja AdobePremiere-ohjelma.Tutkimusti-loina on kolme litterointistudiota,arkistoja tutkimushuoneja äänitteidenjamikrofilmien arkisto(jossalämpötilaja kosteuson säädettytallenteillesopi-vaksi).

Tällähetkelläsuomenkielenjaoksessasuurintarveonsaadaarvokasjauniik-ki aineistodigitoitua.Valtakunnallistayhteistyötäniin digitoinnin suunnitte-lussakuin toteutuksessakintarvitaan,ja sitä on jo osittainpyritty luomaan-kin. Jaokseenon haettudigitointirahaaMaa Ponteva -hankkeesta(ei saatu)sekäopetusministeriönTietohuollonavustukset-määrärahaa(tilanneavoin).Ilman digitointiaarvokkaastaarkistostaosaonvaarassatuhoutua.

Uudenja suurenongelmantallenteidenkäytössä(erityisestiverkostoitumi-senmyötä)aiheuttavateettisetkysymykset.Tallenteitaontehtyuseidenvuo-sikymmentenaikana,muttainformanttienkanssaei ole tehtykirjallisia sopi-muksiatallenteidenkäytöstä.

B.22 TAUCHI-tutkim usr yhmä (TAY)

TAUCHI-ryhmä(TampereUniversityComputerHumanInteractionGroup)onosaTampereenyliopistontietojenkäsittelytieteidenlaitosta.Laitoksentut-kimusryhmiäTAUCHI:n lisäksiovatalgoritmiikkaaja käsitteellistämallinta-mistasekätiedonhallintaatutkivat ryhmät.Laboratorioitaovat käytettävyys-

Page 82: Puheentutkimuksen resurssit Suomessaettä ihminen voi välittää tietoa sisäisistä tarpeistaan ja ulkoisesta olemukses-taan organisoimalla liikkeeseen ilman molekyylejä keuhkojen

82 PuheentutkimuksenresurssitSuomessa

laboratoriosekävirustutkimusyksikkö.Laitoksenjohtajaon professoriSep-po Visala, TAUCHI-ryhmänjohtajanatoimii professoriKari-J ouko Räihä.Tietojenkäsittelytieteidenlaitoksellatyöskenteleenoin 55 henkilöä;TAUC-HI-ryhmässäon 25 tutkijaa, joista puhtaastipuhekäyttöliittymätutkimuksenparissatyöskenteleekaksi tutkijaa.Puhekäyttöliittymätutkijattoimivat mää-räaikaisintyösopimuksineri tutkimusprojekteissa,joita rahoittavat SuomenAkatemia,TekessekäUSIX-teknologia-ohjelma.Lisäksion alkamassaEU-rahoitteinentutkimusprojekti.

Laitoksella harjoitettava puheentutkimuskuuluu tietojenkäsittelytieteenjakäyttöliittymien tutkimuksenalaan.Tärkeimmätpuheentutkimukseenliitty-vät teematovatadaptiivisetpuhekäyttöliittymät,kaikkialla läsnäolevantieto-tekniikankäyttöliittymät,multimodaalinenihmisenja tietokoneenvuorovai-kutus,uudetvuorovaikutustekniikatsekäkatsekäyttöliittymässä.Puhekäyt-töliittymätutkimuspyrkii vastaamaankysymykseen,kuinkapuhettavoidaanhyödyntääihmisen ja tietokoneenvälisessävuorovaikutuksessaja kuinkakäyttöliittymäratkaisuillavoidaankompensoidateknologianpuutteita.Tut-kimuksessapainopisteon pelkästäänpuheeseenliittyvissä käyttöliittymissä,ja teemojaovatmonikielisyys,adaptiivinenpuhetulosteiden,dialoginja syöt-teidenhallintasekävirhehallintaja erityistilanteidenkäsittely.

Tutkimuksenyleisenätavoitteenaon parantaapuheeseenpohjautuvienjär-jestelmienkäytettävyyttä:tutkimuksenkohteenaovaterityisestipelkkäänpu-heeseenpohjautuvat käyttöliittymät.TAUCHI-tutkimusryhmässäkehitetäänvuorovaikutusmenetelmiä,joiden avulla puhejärjestelmienkäytettävyyspa-ranee.Erityisesti kehitetäänarkkitehtuuria,jonka avulla vuorovaikutusme-netelmiävoidaantukeakäytännönpuhesovelluksissa.Konstruktiivisentutki-muksenkäytännöntavoitteenaon rakentaakäytännönsovelluksia,joidenra-kentamisestaja käytöstäsaatuihinkokemuksiinvuorovaikutusmenetelmienja arkkitehtuurinkehittäminenperustuu.Työn tieteellisettuloksetovat sitentoisaaltavuorovaikutusmenetelmiä,joidenavulla puhejärjestelmistävoidaantehdänykyistäkäytettävämpiä,ja toisaaltaarkkitehtuureja,jotka mahdollis-tavat vuorovaikutusmenetelmienhyödyntämisenpuhesovelluksissa.Lisäksitutkimuksentuloksenaon myöstoimivia puhesovelluksia.Kehitettävätjär-jestelmätovat suomenkielisiätai monikielisiä– useimmattieteellisettulok-setovatkuitenkinkieliriippumattomia.

Tutkimuksessaei käytetävarsinaistapuhetietokantaa,vaantutkimustyötävar-ten kerätäänpuhesovellustenkäyttäjienpuheenvuorojakeskusteluista,joitahekäyvätpuhejärjestelmienkanssa.Puhetallenteidenaihepiiri on siis varsinspesifiä,sisältäenyksisuuntaisiapuheenvuorojaihmisenja tietokoneenväli-sistävuorovaikutustilanteista.Puheenvuorotovat sitenlyhyitä lausumia,joi-densanastoja kielioppi onrajoitettua,kuten»luekolmasposti»ja »seuraavakansio».Nauhoitetutpuheenvuorot ovat esimerkkejä järjestelmänoikeastakäytöstä.Nauhoituksiaon yhteensätuhansia,puhujienmääräon muutamiakymmeniä.Puheenvuorottallennetaandigitaalisestiyhdenvuoronmittaisinanauhoituksinasiten,ettäyksi tiedostokattaayhdenpuheenvuoron.Puheen-vuoronlitterointi sisältyytiedostonimeen.Puhetallenteetsisältävätainutlaa-tuistadataaihmisenja koneenvälisestävuorovaikutuksestaja tarjoavat suu-ren määränluonnollistaaineistoamyösmuidenalueidenkäytettävyystutki-

Page 83: Puheentutkimuksen resurssit Suomessaettä ihminen voi välittää tietoa sisäisistä tarpeistaan ja ulkoisesta olemukses-taan organisoimalla liikkeeseen ilman molekyylejä keuhkojen

B. Vastaukset 83

mukselle.Tutkimusryhmähyötyisi myöspuhetietokannoista,jotka heijaste-lisivat ihmistenvälistävuorovaikutusta.Räätälöityjentunnistimienkehittä-minenedellyttäälaajoja,myösihmistenvälistädialogiasisältäviäpuhetieto-kantoja.

Postimies-järjestelmäon toteutettuAdaptiivisetpuhekäyttöliittymät-tutki-musprojektissa,jonka tarkoituksenaon selvittää,mitenpuhtaastipuheeseenperustuvatkäyttöliittymättulisi rakentaa.Postimiesonmonikielinenpuhelin-pohjainensähköpostienlukuohjelma.Sähköpostivalittiin tutkimuskohteek-si haastavuutensavuoksi: sähköpostiviestienteksti vaatii esikäsittelyä,jot-ta viestienkuunteluolisi sujuvaa.Esimerkiksihymiöt on käsiteltävä,ennenkuin tekstinvoi lähettääpuhesyntetisaattoringeneroitavaksi ja postienauto-maattinenlajittelu kansioihinon myöstoivottavaa.Tärkeätutkimuksenkoh-de on puheenprosodiikan– äänenkorkeudenja voimakkuudensekäpuhe-nopeudenvaihtelunja taukojen esiintymisen– rooli synteesinymmärrettä-vyydenlisäämisessä.PuheliittymäonlaitteistotasollatoteutettuDialogic-yh-tiön toteuttamallapuhelinkortilla, jokaonliitetty PC-koneeseen.Varsinainenpuheentunnistinon rakennettuitse Microsoftin HTK toolkit -ohjelmistolla.Puhesynteesiton liitetty järjestelmäänMicrosoftin SAPI-rajapinnankautta;näinjärjestelmäänvoidaanliittää mikä tahansarajapinnantoteuttavasyntee-si – tällä hetkellä käytössäon TimehouseOy:n Mikropuhe-synteesinSAPI-versio.

Ovimiesontietojenkäsittely-ympäristöja tutkimuksentestialusta,jokaonto-teutettuTAUCHI-ryhmäntiloissa,jossasepalveleehenkilökuntaaja vierai-ta jokapäiväisissäviestintätilanteissa.Vieraille järjestelmätarjoaaopastus-palveluita.Järjestelmäntutkimuksellisenatavoitteenaontarkastellakaikkial-la läsnäolevaatietojenkäsittelyä(ubiquitouscomputing)ja puhekäyttöliitty-miä. Tutkimusliittyy SuomenAkatemianrahoittamaanUser InterfacesforUbiquitousComputing-projektiin.Tutkimuksenensisijaisenakohteenaovaterityisestiihmisenja koneenvuorovaikutukseenliittyvät ongelmat.Ovimie-henensimmäinenprototyyppion käyttövalmis kesällä2001.Järjestelmässähyödynnetäänuusiavuorovaikutustekniikoita,erityisestiääntäja puhetta.

Bussimieson parhaillaankehiteltäväaikataulujärjestelmäTampereenjouk-koliikenteelle.Tavoitteenaon puhelimenkauttakäytettäväjärjestelmä,jokakertoosuomenkielellä Tampereenseudunbussiaikataulut.Järjestelmääoh-jataanpuheellaja vastauksettuotetaanpuhesynteesinavulla. Käytettäväpu-heentunnistinon kehitettyTampereenteknillisenkorkeakoulunDigitaalisenmedianinstituutissa.EnsimmäinenversioBussimiehestäon valmis kesällä2001.Puheentunnistusmallitovat valmiit käytettäviksija seuraavaksimääri-tellään»kieliopit»eli järjestelmänymmärtämätilmaisut.

Jaspison yleinenpuhekäyttöliittymienmalli, joka on suunniteltuerityises-ti monikielisiäja adaptiivisia puhesovelluksiavarten.Malli on hajautettujapohjautuuyleisiin teknologioihin.Seon tarkoitettumahdollistamaanuuden-tyyppisiä puhuttuunkieleenpohjautuviasovelluksia.Päähuomioon erilai-sissavuorovaikutusteknologioissa,erityisestisiinä,mitenniitä voidaantukeapuhesovellustenarkkitehtuuritasolla.

TAUCHI-ryhmälläon käytössääntutkijahuoneitaja kaksikäytettävyyslabo-

Page 84: Puheentutkimuksen resurssit Suomessaettä ihminen voi välittää tietoa sisäisistä tarpeistaan ja ulkoisesta olemukses-taan organisoimalla liikkeeseen ilman molekyylejä keuhkojen

84 PuheentutkimuksenresurssitSuomessa

ratoriota.SovelluksetrakennetaanpääosinJava-kielellä, joten ne ovat pit-kälti laitteistoriippumattomia.JärjestelmiäkehitetäänWindowsNT -alustoil-la.Laitteistoriippuvaisetosat,puhesynteesit,tunnistimetsekäpuhelinliittymätoimivatWindows-ympäristössä.PuheentunnistuksessakäytössäovatEntro-pic HTK sekäGrapHvite;puhesynteesinätoimii pääosinTimehouseOy:nMikropuhe.

Puhekäyttöliittymätutkimuksenvolyymi onkasvamassaTAUCHI-ryhmässä.Kehitteilläolevat puheeseenpohjautuvat järjestelmätovat lupaavia ja niidenpohjanaolevaaarkkitehtuuriakehitetäänedelleen.Sovellustenjatkokehityk-senmyötävoidaanodottaauusiaja ratkaisevastiparempiavuorovaikutusme-netelmiä.

B.23 Timehouse Oy

Timehouseon vuodesta1985toiminut ohjelmointiin (erityisestiC/C++) jaelektroniseenjulkaisuunerikoistunutyritys. Tuotettujasovelluksiaovatmm.videokortin ajurit, SGML-toimitusjärjestelmät,puhesyntetisaattoritja multi-mediatietosanakirjat.Tuotekehittelyssäja tutkimuksessaonkäytettysumeanlogiikanalgoritmeja(kutenhermoverkkoja,satunnaiskytkentämetodejajage-neettisiäalgoritmeja).Vuonna1993kehitettiinliikunta- ja puhekyvyttömilleALS-potilaille kommunikointijärjestelmä,jossakirjainmatriisiin katsomallavoidaanluodasanojapuhesyntetisaattorintuotettavaksi.Järjestelmäävartenkehitettiinomavideokortti ja adaptiivinentunnistusjärjestelmä.Viime vuosi-naTimehouseonkeskittynyt elektronisenThText-julkaisujärjestelmänkehit-tämiseen.Järjestelmäsisältäätäysin indeksoiduntietokannan,jota voidaanpäivittää internetissätoimitettujenosapäivitystenavulla. ThText-järjestelmäsisältäämyösapuvälineitägraafiseenjulkaisemiseen.Esimerkiksiseuraavatohjelmaton rakennettuThText-järjestelmällä:WSOY Kodin Lääkäri CD-Fakta,WSOY VuosiCD-2000ja WSOY YritystietoCD-ROM.

Mikropuhe on Timehousenkehittämäsuomenkielinenpuhesyntetisaattori.Ohjelmaavoi käyttääjoko sellaisenaanMikropuhe-tekstieditoriahyödyn-täentai apuohjelmanaSAPI-liitynnänkautta.MikropuheperustuuPuolassakehitettyynmikrofoneemiseensynteesiin.Syntetisaattorissaon hyödynnettyLauri Lehtisen Teknilliseenkorkeakouluun(Akustiikan ja äänenkäsittely-tekniikanlaboratorio)tekemänlisensiaattityöntutkimustuloksia.Timehouseon lisäksiitsekehittänyt synteesitekniikkaaja syntetisointimenetelmiä.Tois-taiseksikaikki synteesitekniikatperustuvatmikrofoneemiseenmenetelmään.

Mikropuhettaon hyödynnettypaljon korkeakouluissatapahtuvassapuheen-tutkimuksessa,mm.Teknillisenkorkeakoulunkognitiivisentieteenja tekno-logiantutkimusryhmän»puhuvassapäässä»(ks.54) ja Tampereenyliopistontietojenkäsittelytieteidenlaitoksenpuhekäyttöliittymätutkimuksessa(ks.82).MikropuheenuusinversiokäyttääohjelmaliitäntänäänMicrosoftSAPI:a,jo-kamahdollistaasyntetisaattorinkäytönuseammanWindows-ohjelmankans-sa.Uuteenversioonon lisätty myöslukuisiauusiakäyttäjäystävällisiäomi-naisuuksia,mm.kirjasimenvaihdon,hakutoiminnonja puhuttavansananko-rostuksen.Puhenopeus,äänenkorkeusjauseatmuutpuhearvotvoidaanvalita

Page 85: Puheentutkimuksen resurssit Suomessaettä ihminen voi välittää tietoa sisäisistä tarpeistaan ja ulkoisesta olemukses-taan organisoimalla liikkeeseen ilman molekyylejä keuhkojen

B. Vastaukset 85

vapaasti.Mikropuheenuusimmassaversiossaonmukanakaksiääntä:naisenääni(Saga)ja miehenääni(Petteri).Molempiensisältönäonnoin60sekuntiamanuaalisestikäsiteltyjäääninäytteitä.

Äänisignaalinpoimimiseenja syntetisaattorillesopivaksikäsittelyynontehtyomatohjelmistot,koskasoveltuviaohjelmistojaei ole kaupallisestisaatavil-la. Kehitystyössäkäytettypuheaineistosisältääpääosinfoneemisekvenssejäkutenalla,amma,anna,jne.wav-tiedostoina.

Aika alkaaolla kypsämonipuolisillepuhesovelluksille, ja erityisestipuhe-limen välitykselläkäytettävätinformaatiopalvelut ovat yleistymässä.Puhe-lin ja vammaissovellustenlisäksipuhekäyttöliittymienavulla onmahdollistatuodatietotekniikkaaalueille,joilla senkäyttöei oleollut aikaisemminmah-dollista, koskakäyttäjänkädeteivät ole olleet vapaina:erilaisiahands-free-sovelluksiakehitetäänjatkuvasti.Puhuvantietokoneenkehitystyötuleejat-kumaanTimehousentoiminnassa.

B.24 Vieraiden kielten laitos (JOY)

Joensuunyliopiston Vieraidenkielten laitoksenjohtajanatoimii professoriJussi Niemi. Puheentutkimusliittyy fonetiikanja yleisenkielitieteentutki-mukseen,erityisestipuhesynteesinja prosodiikantutkimukseen.Tärkeinyk-sittäinentavoite on prosodistenilmiöiden mallintaminenpuhesynteesiävar-ten.

Laitoksellatyöskentelee10 henkilöä,joista5 toimii puheentutkimuksenpa-rissa.Työsuhteetrahoitetaanyliopistonperusrahoituksella(3 henkilöä),Te-kesinUSIX-rahoituksella(4 henkilöä)ja opetusministeriönhankerahalla(2osa-aikaistatyösuhdetta).Lisäksi saadaanprojektirahoitustaPohjois-Karja-lan liitolta.

TekesinUSIX-ohjelmastarahoitetaankolmevuotinen(2000–2002)suomen-kielisenpuheteknologianyhteishanke.Hankkessapyritäänkehittämäänkol-measuomenkielisenpuheteknologianaluetta,jotkaliittyvät kiinteästitoisiin-sa:puhesynteesi,puhujantunnistaminenja suomenkielisenpuhetietokannankehittäminen.

Kolmivuotisenhankkeenkokonaistavoitteitaovatakustisiinparametreihinpe-rustuvanpuhujakohtaisenprofiilin muodostaminen,edustavanpuhetietokan-nan luominen(200–300puhujaa)sekäsellaisenohjelmanlaatiminen,jokamuodostaaautomaattisestipuhujakohtaisenakustisenprofiilin äänitallentees-ta ja vertaasitä puhujatietokannassajo valmiiksi laskettuihin profiileihin.Edelleenohjelmaetsii tietokannastapuhujan,jolla on suurin samankaltai-suustutkittavanpuhujankanssa.Hankkeenviestiliikenteellisenosantavoit-teenaon tutkia puhujanosuuttaviestintunnistettavuudenja ymmärrettävyy-denkannaltaja tutkia kohinanpoistonmerkitystätunnistettavuudenparanta-misessa.

Tutkittavat parametritovat pitkäaikaisspektri,perustaajuus-ja amplitudiper-turbaatio,glottispiirteet,soinninsuhteellinenosuus,FFT- ja LPC-spektriteri-laisine optioineen,kepstri, formantit ja spektrihuiput,äänteidentransitiot,

Page 86: Puheentutkimuksen resurssit Suomessaettä ihminen voi välittää tietoa sisäisistä tarpeistaan ja ulkoisesta olemukses-taan organisoimalla liikkeeseen ilman molekyylejä keuhkojen

86 PuheentutkimuksenresurssitSuomessa

perustaajuudenkeskiarvo, hajontaja vaihteluväli sekäprosodianyksilölli-set ominaisuudet.Erityistä huomiotakohdistetaantutkittavien parametrienanalyysioptioihin,parametrienlaskenta-algoritmeihin,parametrienmittauk-senautomatisoitavuuteen,tunnistuksenkieli- ja tekstiriippuvuuteensekäpa-rametrienpysyvyyteenolosuhteistariippumatta.

Hanketähtäätutkimuksenkauttakäytännönsovelluksiin,joidenavulla puhe-teknologiaanpohjautuvienpalvelujenlaatuavoidaanparantaaja saadalaa-jemmankäyttäjäkunnanulottuville. Hankkeenkoordinointivastuuon Joen-suunyliopistolla, tutkimusosapuolinahankkeessaovat Helsinginyliopistonfonetiikan laitos ja yleisenkielitieteenlaitos sekäJoensuunyliopiston vie-raidenkielten laitos. Rahoittajaosapuolinaovat Tekesin lisäksi Alma Me-dia Oyj, Ilmailulaitoksenlennonvarmistusosasto,Ilmavoimien viestikoelai-tos, Keskusrikospoliisin rikostekninenlaboratorio,Lingsoft Oy, Näkövam-maistenkeskusliittory, Onnettomuustutkintakeskus,ScandoOy sekäSoneraSolutionsOy.

Puhujantunnistamiseenliittyvän osahankkeentavoitteenaon tehdätietoko-neohjelma,jolla voidaanilmaista puhujakohtainenpuhujaprofiili puhujienforensistavertailuaja puhujantodentamistavarten.Lisäksi hankkeessake-hitetäänäänitteidenkohinanpoistoaja tutkitaanviestiliikenteenpuhujastajasiirtokanavastariippuvaapuheenymmärrettävyyttäja ymmärrettävyydenpa-rantamista.HankkeessahyödynnetäänTeknillisenkorkeakoulunja Helsinginyliopistonfonetiikanlaitoksenyhteistyössäkehittämääsuomenkielistäpuhe-tietokantaa(ks. 49). Hankkeellaon myösyhteys automaattisenpuheentun-nistuksenkehittämiseen,sillä tutkimuksessahyödynnetäänTKK:n akustii-kan laboratorionautomaattistapuheentunnistustavartensuunnittelemiasig-naalinkäsittelynesiprosessointikeinoja.

Puhesynteesiinliittyvän osahankkeentavoitteenaon luodajoustava, modu-laarinensuomenkieleensoveltuva tekstistä-puheeksi-järjestelmä,jota voi-taisiinkäyttääsekätutkimuksessaettäsovelluksissa.Järjestelmänkehittämi-sessähyödynnetäänJoensuunyliopistonkieliaineidenja Helsinginyliopistonfonetiikan laitoksenkäytettävissäolevia suomenkielen puheaineistoja.Li-säksihyödynnetäänNäkövammaistenkeskusliitonkirjastonäänikirjoja.Tär-keäosuuson myössanomalehtiKarjalaisella:sanomalehdendigitaalimuototoimii synteesihankeentestialustanaja kehitettäväntekstistä-puheeksi-jär-jestelmänensimmäisenäsovelluksena.ToinentärkeäyhteistyökumppanionAlma MediaOyj, jonka laajoihin lehtiaineistoihinon jo aiemminsovellettukieliteknologisiamenetelmiä.Puhesynteesikorpus,joka tunnetaanmyösni-mellä»Karjalainen-puhekorpus»sisältääluettuauutistekstiä.Studiossaääni-tettyjäsanomalehtitekstejäonyhteensänoin700virkettä.Kahdenammattilu-kijan tuottamaaaineistoaon 60 minuuttiadigitaalisessamuodossa.Aineistoonvainprojektinsisäisessäkäytössä.

Puhesynteesiäja muitapuheteknologianhankkeitaon vaikeakehittääilmanriittävän laajaaja tarkoitukseensopivaapuhetietokantaa.Suomenkielenpu-hetietokantaanliittyvän osahankkeentavoitteenaon laajentaajo olemassaoleva suppeasuomenkielinenpuhetietokanta(ks. 49) suomenkielen kan-naltaedustavammaksi.Laajennetuntietokannanytimenätuleeolemaansa-nakirjamainenpuhetietokanta(noin 10000 edustavaasanaa),joka mahdol-

Page 87: Puheentutkimuksen resurssit Suomessaettä ihminen voi välittää tietoa sisäisistä tarpeistaan ja ulkoisesta olemukses-taan organisoimalla liikkeeseen ilman molekyylejä keuhkojen

B. Vastaukset 87

listaalähestäydellisenkielen fonotaksin,difoniperiaatteenedustavuudenjakoartikulaationkuvauksen.Samallasaadaanprosodianja reduktioilmiöidentutkimuksenkannaltamerkittävääaineistoa.Muu lisättäväaineistokoostuuirrallisistasanoistaja lauseistasekäeri puhetyylejäedustavastaaineistosta.

Käytössäoleva suomenkielinenpuhetietokantaei toistaiseksiole vielä opti-maalinen,koskaannoituaaineistoaon liian vähän.Lisäksieri segmentoijienvälistä luotettavuuttaei ole testattuja tavu-ja painotusmerkinnätpuuttuvat.Ihanteellinenpuhetietokantaolisi studiolaatuinenlaajatietokanta,johonoli-si tallennettu2–4henkilönpuhettavähintään45 minuuttia/puhuja.Puhetie-tokantasisältäisimyöspitkiä yhtämittaisiapuhejaksojaja aineistoolisi seg-mentoituluotettavasti virke-, lause-,sana-,tavu-, foneemi-,ja foonitasolla.Aineisto olisi lisäksi varustettupainomerkinnöillä,ja koko annotaatioolisiXML-muodossa.

Edellämainittujenpuheaineistojenlisäksi laitoksellaonkäytössäCOST258SpeakingStylesCorpusja Tapio Hokkasen puhelipsahduskorpus.COST258 SpeakingStyles-korpussisältää114 virkettä ja 9 osiotaerilaisia teks-tityyppejä.Kyseessäon yhdenpuhujan(foneetikon) tuottamans. laborato-riopuhe(»promptedlab speech»),jonka sisältönäon luetteloita,tiedotuksiaja lyhyitä uutisia.KorpusCOST258:Naturalnessof SyntheticSpeechonke-rättyyhteistyössäUniversitédeProvencenkanssa.Aineistoaon20minuuttiadigitaalisessamuodossa.Puhelipsahdusaineistokoostuuradiohaastatteluistaja urheiluselostuksista,joissaonuseitapuhujia.Aineistoaon155tuntia(noinmiljoonasanaa):52tuntiaradiohaastatteluja,100tuntiaurheiluselostuksiaja3 tuntiaJoensuunyliopistonsuomenkielenlaitoksennauhoitearkistonpuhe-kielen näytteitä.Aineisto on pääosinanalogisessamuodossa(C-kaseteilla);lipsahduskohdaton digitoitu (WAV-tiedostoina).PuhesynteesikorpuksenjaCOST258SpeakingStyles-korpuksensisältämäaineistoon litteroitu lause-, sana-ja foneemitasolla,lisäksilitteroinnissaondokumentoituF0:nvaihtelu.Puhelipsahdusaineistostavainpieniosaonannotoitutällä tarkkuudella.

Laitoksellaontutkimustavartenlaboratorio,tiedekunnanyhteinenäänittämöja 16 tietokonetta(3 Macintoshia,4 Windows-Pentiumia,2 Solaris-Sparciaja 7 Linux-Pentiumia).Akustinen analyysi suoritetaanPraat-,SpeechFi-ling System-jaSignalyze-ohjelmilla,AnnotointiPraat-,SFS-,Transcriber-jaEMU-ohjelmilla. PuhesynteesissäkäytetäänFestival- ja KPE80-ohjelmiajahermoverkkotutkimuksessaStuttgartNeuralNetwork Simulator, LVQ, SOMja PDP-ohjelmia.

Puheentutkimuskorostuulaitoksellakieliteknologianopetusverkostonmyö-tä. Teollisuudessatullaansijoittamaanmerkittäviälisäresurssejapuheentut-kimukseenja tässätarvitaanyhteistyötäkorkeakoulujenkanssa.Laitoksenpainopisteenätuleeolemaanerityisestiprosodianmallintaminen:COST258-korpuksenavulla pyritään automaattiseenF0-ilmiöiden luokitteluun ja erikieltenprosodistenominaisuuksienyhtenäisenmerkintätavankehittämiseen.

Page 88: Puheentutkimuksen resurssit Suomessaettä ihminen voi välittää tietoa sisäisistä tarpeistaan ja ulkoisesta olemukses-taan organisoimalla liikkeeseen ilman molekyylejä keuhkojen

88 PuheentutkimuksenresurssitSuomessa

Hakemisto

AAaltonen,Olli, 51aivojenkuvantamismenetelmät,54aivotutkimus,51, 54Alatalo,Heikki, 67Alku, Paavo, 65Alma MediaOyj, 85ANDOLS, 42Astola,Jaakko, 45Audio ResearchGroup,45audiovisuaalinenpuhe,54audiovisuaalinenpuhetietokanta,55

BBoersma,Paul,67Bussimies,82

CCarlson,Lauri, 30Celia,63COST258 SpeakingStylesCorpus,

86COST-hanke,48

DDaisy-konsortio,63Digital MediaInstitute,45

EElisaCommunicationsResearchCen-

ter, 47

HHäkkinen,Kaisa,73Haavisto,Petri,62Hakulinen,Auli, 30HelsinginYliopisto, 48, 69Hokkanen,Tapio,86

Iihminen-kone-käyttöliittymät,54INTAS-hanke,48INTERACT-hanke,61

JJaspis,82

Joensuunyliopisto,84JyväskylänYliopisto, 71, 75

KKarjalainen,Matti, 40Karjalainen-puhekorpus,85KeinoHenkilö,54Keskusrikospoliisi,48, 85Kiel corpus,42Klippi, Anu, 48kognitiivinenneurotiede,51kognitiivinentiedeja teknologia,54Kohonen,Teuvo, 61kommunikaatiomekanismit,54Kotimaistenkielten tutkimuskeskus,

56Kuosmanen,Pauli, 47

LLaalo,Klaus,77, 78Laine,Matti, 26Laine,UntoK., 34lapsenäänteellisenkehityksentutki-

mus,48Laukkanen,Anne-Maria,64Lehtimäki,Pekka,77, 78Lehtinen,Esa,77, 78Lehtinen,Lauri, 83Leino,Pentti,69Leino,Timo, 64Leiwo, Matti, 71Linell, Per, 70LingsoftOy, 58, 85Londen,Anne-Marie,70Lyytinen,Heikki, 72

MMediaTeam,59

NNäkövammaistenkeskusliitto,63Näkövammaistenkirjasto,63neuroverkkotutkimus,61Niemi, Jussi,84Nokia ResearchCenter, 62

Page 89: Puheentutkimuksen resurssit Suomessaettä ihminen voi välittää tietoa sisäisistä tarpeistaan ja ulkoisesta olemukses-taan organisoimalla liikkeeseen ilman molekyylejä keuhkojen

Hakemisto 89

Nuolijärvi, Pirkko, 56, 70Nykysuomalaisenpuhekielenmurros,

77

OOja,Erkki, 61Onnettomuustutkintakeskus,85Oulunnauhoitearkisto,78Oulunyliopisto,78

PPeräkylä, Anssi,53, 69, 70Postimies,82prosodiantutkimus,48puheenhavaitseminen,51puheentyylien tutkimus,48puhelipsahduskorpus,86puhesynteesi,48, 85puhesynteesikorpus,85puhujantunnistaminen,48, 85PUTTEPUH-projekti,42

QQuickSig,42, 49

RRäihä,Kari-Jouko, 54, 80Rautiomaa,Matti, 73

SSaarinen,Jukka,43Saarinen,Sirkka,73Sams,Mikko, 26, 54, 70Sauvola,Jaakko, 59Savijärvi, Ilkka, 75segmentointi,49Simula,Olli, 61Sorjonen,Marja-Leena,56, 70SpeechDat(II),45, 46, 50Sulkala,Helena,78Suojanen,Matti K., 76Suomenkielenäänitearkisto,73Suomenkielennauhoitearkisto,57, 75Suomenkielenomaksumisentutkimus,

72Suomenyleiskielenfonetiikka-tutkimusprojekti,

50suomenkielinenpuhetietokanta,48, 49,

85Suomenkielisenpuheteknologianyh-

teishanke,48, 84Suomi,Kari, 29Svenskasamtali Helsingfors,70Syrjänen,Kaj, 64

TTampereenteknillinen korkeakoulu,

43, 45

Tampereenyliopisto,53, 64, 76, 80TAUCHI-ryhmä,80Tekes,48, 84, 85Teknillinenkorkeakoulu,40, 54, 61Tiittula, Liisa, 70TimehouseOy, 83TIMIT, 42Toivonen,Raimo,67Tuomaala,Väinö,73Turunyliopisto,51, 73

Uuniversaalifoneemit,43USIX, 48, 50, 52, 84

VVainio,Martti, 32Viitanen,Jouko, 66Visala,Seppo,80VISU, 78vokaalitutkimus,48Vuorio,Anna,78Vuorovaikutustv-keskustelussa,70

YYli-Hietanen,Jari,45