konekäännös tekstityksen tukenatextmine/events/tew-t... · programme under grant agreement no...

19
memad.eu [email protected] @memadproject MeMAD Project MeMAD project has received funding from the European Union’s Horizon 2020 research and innovation programme under grant agreement No 780069. This presentation has been produced by theMeMAD project. The content in this presentation represents the views of the authors, and the European Commission has no liability in respect of the content. Konekäännös tekstityksen tukena Maarit Koponen, Helsingin yliopisto [email protected]

Upload: others

Post on 28-Jun-2020

2 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Konekäännös tekstityksen tukenatextmine/events/tew-t... · programme under grant agreement No 780069. This presentation has been produced by theMeMAD project. The content in this

[email protected]

@memadprojectMeMAD Project

MeMAD project has received funding from the European Union’s Horizon 2020 research and innovation programme under grant agreement No 780069. This presentation has been produced by theMeMAD project. The content in this presentation represents the views of the authors, and the European Commission has no liability in respect of the content.

Konekäännös tekstityksen tukenaMaarit Koponen, Helsingin [email protected]

Page 2: Konekäännös tekstityksen tukenatextmine/events/tew-t... · programme under grant agreement No 780069. This presentation has been produced by theMeMAD project. The content in this

MeMAD project has received funding from the European Union’s Horizon 2020 research and innovation programme under grant agreement No 780069. This presentation has been produced by theMeMAD project. The content in this presentation represents the views of the authors, and the European Commission has no liability in respect of the content.

MeMAD - Methods for Managing Audiovisual Data

Page 3: Konekäännös tekstityksen tukenatextmine/events/tew-t... · programme under grant agreement No 780069. This presentation has been produced by theMeMAD project. The content in this

MeMAD project has received funding from the European Union’s Horizon 2020 research and innovation programme under grant agreement No 780069. This presentation has been produced by theMeMAD project. The content in this presentation represents the views of the authors, and the European Commission has no liability in respect of the content.

Konekääntäminen MeMAD-hankkeessa● WP4 Multimodaalinen ja monikielinen konekääntäminen● Kääntimien kehitystyö HY digitaalisten ihmistieteiden laitos

○ Neuroverkkokääntimet (avoimen lähdekoodin MarianNMT)○ Avoimet rinnakkaistekstikorpukset (OPUS, http://opus.nlpl.eu/ ),

mm. elokuva- ja televisiotekstityskorpus OpenSubtitles○ Projektin käytössä myös pienehkö korpus YLEn tekstitys- ja av-aineistoa

● Pääasialliset kielet suomi, ruotsi, englanti sekä ranska, hollanti, saksa● Käännöstekstitys, videoiden kuvailun ja metatietojen kääntäminen● Täysin automaattinen konekäännös vs konekäännös kääntäjän apuvälineenä

Page 4: Konekäännös tekstityksen tukenatextmine/events/tew-t... · programme under grant agreement No 780069. This presentation has been produced by theMeMAD project. The content in this

MeMAD project has received funding from the European Union’s Horizon 2020 research and innovation programme under grant agreement No 780069. This presentation has been produced by theMeMAD project. The content in this presentation represents the views of the authors, and the European Commission has no liability in respect of the content.

Multimodaalinen konekääntäminen

Esimerkin lähde: Lala & Specia 2018

Page 5: Konekäännös tekstityksen tukenatextmine/events/tew-t... · programme under grant agreement No 780069. This presentation has been produced by theMeMAD project. The content in this

MeMAD project has received funding from the European Union’s Horizon 2020 research and innovation programme under grant agreement No 780069. This presentation has been produced by theMeMAD project. The content in this presentation represents the views of the authors, and the European Commission has no liability in respect of the content.

Konekäännös, jälkieditointi ja av-kääntäminen● Konekäännöksen jälkieditointi on yleistyvä osa käännösprosessia erityisesti

asiatekstikääntämisessä○ Tilanne kuitenkin vaihtelee eri maissa ja eri kielipareissa

● Audiovisuaalisessa ympäristössä konekäännöstä ja jälkieditointia on testattu esimerkiksi joissakin eurooppalaisissa projekteissa

○ eTITLE (Melero ym. 2006), SUMAT (Bywood ym. 2017), ALST (Ortiz-Boix & Matamala 2017)

● Kaikkiaan konekäännöksen ja jälkieditoinnin käyttö vaikuttaa kuitenkin av-kääntämisessä vielä melko vähäiseltä (ks. Díaz-Cintas & Massidda 2019)

Page 6: Konekäännös tekstityksen tukenatextmine/events/tew-t... · programme under grant agreement No 780069. This presentation has been produced by theMeMAD project. The content in this

MeMAD project has received funding from the European Union’s Horizon 2020 research and innovation programme under grant agreement No 780069. This presentation has been produced by theMeMAD project. The content in this presentation represents the views of the authors, and the European Commission has no liability in respect of the content.

Tekstityksen jälkieditoinnin käyttäjätestaus● Osallistujina yhteensä 12 av-kääntäjää (työkokemus 4–30 vuotta)

○ Kahdella aiempaa kokemusta konekäännöksen käytöstä käännöstekstityksessä● 4 kieliparia: suomi-englanti, suomi-ruotsi, englanti-suomi, ruotsi-suomi● Koeaineistona kussakin kieliparissa 6 videoklippiä

○ Klipin pituus n. 3 min, ohjelmatekstityksessä n. 30-35 repliikkiä○ Kaksi aineistotyyppiä: eurovaalikeskustelut ja viihdeohjelma

● Kaksi konekäännöstä per klippi: lausetason malli ja ”kontekstitietoinen” malli● Konekäännösten lähtötekstinä ihmisen tekemä ohjelmatekstitys (ei siis audio)

○ Käännetään yksittäisistä repliikeistä muodostuvia virkkeitä tai pidempiä pätkiä, sitten käännös jaetaan takaisin ajastettuihin repliikkeihin (ks. Tiedemann & Scherrer 2017; Tiedemann 2008)

Page 7: Konekäännös tekstityksen tukenatextmine/events/tew-t... · programme under grant agreement No 780069. This presentation has been produced by theMeMAD project. The content in this

MeMAD project has received funding from the European Union’s Horizon 2020 research and innovation programme under grant agreement No 780069. This presentation has been produced by theMeMAD project. The content in this presentation represents the views of the authors, and the European Commission has no liability in respect of the content.

Tekstittäjän näkymä (Wincaps Q4)

Page 8: Konekäännös tekstityksen tukenatextmine/events/tew-t... · programme under grant agreement No 780069. This presentation has been produced by theMeMAD project. The content in this

MeMAD project has received funding from the European Union’s Horizon 2020 research and innovation programme under grant agreement No 780069. This presentation has been produced by theMeMAD project. The content in this presentation represents the views of the authors, and the European Commission has no liability in respect of the content.

Prosessiaineiston keruu● Kukin osallistuja tekstitti 6 klippiä:

○ 2 klippiä ilman konekäännöstä○ 2 klippiä lausetason konekäännös○ 2 klippiä ”kontekstitietoinen” konekäännös

● Ohjeena tuottaa esityskelpoinen käännös käyttämättä kuitenkaan liiaksi aikaa minkään yksittäisen kohdan hiomiseen

● Osallistujilla käytössä tuttu tekstitysohjelmaa ja tavanomaiset tietolähteet ym.● Tekstittämisen aikana käännösprosessista kerättiin prosessiaineistoa

näppäilyntallennusohjelmalla (Inputlog, Leijten & Van Waes 2013)

Page 9: Konekäännös tekstityksen tukenatextmine/events/tew-t... · programme under grant agreement No 780069. This presentation has been produced by theMeMAD project. The content in this

MeMAD project has received funding from the European Union’s Horizon 2020 research and innovation programme under grant agreement No 780069. This presentation has been produced by theMeMAD project. The content in this presentation represents the views of the authors, and the European Commission has no liability in respect of the content.

Käyttökokemuksen arviointi - UEQ● Jokaisen jälkieditointityön jälkeen osallistujat täyttivät käyttökokemusta

arvioivan kyselyn (User Experience Questionnaire, Laugwitz ym. 2008)UEQ: https://www.ueq-online.org/

Page 10: Konekäännös tekstityksen tukenatextmine/events/tew-t... · programme under grant agreement No 780069. This presentation has been produced by theMeMAD project. The content in this

MeMAD project has received funding from the European Union’s Horizon 2020 research and innovation programme under grant agreement No 780069. This presentation has been produced by theMeMAD project. The content in this presentation represents the views of the authors, and the European Commission has no liability in respect of the content.

Havaintoja: tehtävien kestoKeskimääräinen tehtävän kesto (min) osallistujittain,konekäännöksen jälkieditointi (vas) vs ilman konekäännöstä (oik)

Tehtävän kestossa on huomioitu nimenomaan tekstitysohjelmassa tehty työ, internet-haut ym. on rajattu pois

Page 11: Konekäännös tekstityksen tukenatextmine/events/tew-t... · programme under grant agreement No 780069. This presentation has been produced by theMeMAD project. The content in this

MeMAD project has received funding from the European Union’s Horizon 2020 research and innovation programme under grant agreement No 780069. This presentation has been produced by theMeMAD project. The content in this presentation represents the views of the authors, and the European Commission has no liability in respect of the content.

Havaintoja: näppäimenlyönnitKeskimääräinen näppäimenlyöntien lukumäärä osallistujittain,konekäännöksen jälkieditointi (vas) vs ilman konekäännöstä (oik)

Näppäimenlyöntien lukumäärässä on huomioitu nimenomaan tekstitysohjelmassa tehty työ, internet-haut ym. on rajattu pois

Page 12: Konekäännös tekstityksen tukenatextmine/events/tew-t... · programme under grant agreement No 780069. This presentation has been produced by theMeMAD project. The content in this

MeMAD project has received funding from the European Union’s Horizon 2020 research and innovation programme under grant agreement No 780069. This presentation has been produced by theMeMAD project. The content in this presentation represents the views of the authors, and the European Commission has no liability in respect of the content.

Esimerkki muokkauksista

Page 13: Konekäännös tekstityksen tukenatextmine/events/tew-t... · programme under grant agreement No 780069. This presentation has been produced by theMeMAD project. The content in this

MeMAD project has received funding from the European Union’s Horizon 2020 research and innovation programme under grant agreement No 780069. This presentation has been produced by theMeMAD project. The content in this presentation represents the views of the authors, and the European Commission has no liability in respect of the content.

Käyttäjä-kokemus

Käyttäjäkokemuslomakkeen asteikkoarviot muunnettuna välille -3 … +3

Jälkieditointitehtävistä annettujen arvioiden keskiarvot kielipareittain, ylhäältä alas:englanti-suomiruotsi-suomisuomi-englantisuomi-ruotsi

Page 14: Konekäännös tekstityksen tukenatextmine/events/tew-t... · programme under grant agreement No 780069. This presentation has been produced by theMeMAD project. The content in this

MeMAD project has received funding from the European Union’s Horizon 2020 research and innovation programme under grant agreement No 780069. This presentation has been produced by theMeMAD project. The content in this presentation represents the views of the authors, and the European Commission has no liability in respect of the content.

Esimerkki repliikkijaon ongelmista

Page 15: Konekäännös tekstityksen tukenatextmine/events/tew-t... · programme under grant agreement No 780069. This presentation has been produced by theMeMAD project. The content in this

MeMAD project has received funding from the European Union’s Horizon 2020 research and innovation programme under grant agreement No 780069. This presentation has been produced by theMeMAD project. The content in this presentation represents the views of the authors, and the European Commission has no liability in respect of the content.

Osallistujen kommentteja● Koetilanteen lopuksi lyhyt puolistrukturoitu haastattelu● Negatiivisia kommentteja:

○ Suurin osa käsitteli repliikkijakoa ja ajastusta○ Konekäännöksen laatuun liittyvinä asioina väärät ja ”oudot” sanat sekä muut käännösvirheet,

epäidiomaattiset rakenteet; mahdollinen vaikutus omaan prosessiin ja lopputulokseen● Positiivisia kommentteja:

○ Konekäännöksen laatua luonnehdittiin kuitenkin varsin hyväksi (”parempi kuin odotin”) ja osa koki sen käytöstä olevan hyötyä ainakin joissakin sisältötyypeissä

○ Yksittäisenä hyödyllisenä tekijänä mainittiin konekäännöksen valmiina tarjoama terminologia● ”No siis välillähän ne on yllättävän hyviä, mutta sitten toisaalta välillä ne on

yllättävän huonoja”

Page 16: Konekäännös tekstityksen tukenatextmine/events/tew-t... · programme under grant agreement No 780069. This presentation has been produced by theMeMAD project. The content in this

MeMAD project has received funding from the European Union’s Horizon 2020 research and innovation programme under grant agreement No 780069. This presentation has been produced by theMeMAD project. The content in this presentation represents the views of the authors, and the European Commission has no liability in respect of the content.

Osallistujien kehitysehdotuksia● Repliikkijaon ja ajastuksen yleinen korjaaminen

– puhujien vaihdokset apuvälineenä?● Konekäännös kokonaisuutena erillisessä näytössä, ei valmiina repliikeissä● ”Käännösmuistimaisempi” käyttötapa ja termistöjen yhdistäminen ● Ääniraidan puheesta transkripti● Tilarajoitteiden tunnistaminen, käännöksen tiivistäminen● Koheesion parantaminen● Mukautuminen eri tyylilajeihin

Page 17: Konekäännös tekstityksen tukenatextmine/events/tew-t... · programme under grant agreement No 780069. This presentation has been produced by theMeMAD project. The content in this

MeMAD project has received funding from the European Union’s Horizon 2020 research and innovation programme under grant agreement No 780069. This presentation has been produced by theMeMAD project. The content in this presentation represents the views of the authors, and the European Commission has no liability in respect of the content.

Mitä opimme pilotista?● Konekäännöksen jälkieditointi voisi av-kääntäjällekin olla apuväline –

mutta haasteita riittää vielä ratkaistavaksi○ Repliikkijaossa ja ajastuksessa ilmenneet ongelmat vaikuttivat keskeisiltä tekijöiltä○ Kaikki konekäännöksiin tehdyt muutokset eivät välttämättä liity suoranaisiin virheisiin vaan

esim. av-kääntämiselle ominaiseen tiivistämiseen● Vaikka prosessimittareilla (aika tms.) nähtäisiin hyötyä, myös käyttäjän

kokemukseen on syytä kiinnittää huomiota● Seuraavaksi: multimodaalisen informaation hyödyntäminen – esim. puhujien

tunnistaminen, merkitysten yksiselitteistäminen, kontekstitietoisuus

Page 18: Konekäännös tekstityksen tukenatextmine/events/tew-t... · programme under grant agreement No 780069. This presentation has been produced by theMeMAD project. The content in this

[email protected]

@memadprojectMeMAD Project

MeMAD project has received funding from the European Union’s Horizon 2020 research and innovation programme under grant agreement No 780069. This presentation has been produced by theMeMAD project. The content in this presentation represents the views of the authors, and the European Commission has no liability in respect of the content.

Kiitos!

[email protected]

Yhteistyössä: Kaisa Vitikainen, Umut Sulubacak, Jörg Tiedemann

Page 19: Konekäännös tekstityksen tukenatextmine/events/tew-t... · programme under grant agreement No 780069. This presentation has been produced by theMeMAD project. The content in this

MeMAD project has received funding from the European Union’s Horizon 2020 research and innovation programme under grant agreement No 780069. This presentation has been produced by theMeMAD project. The content in this presentation represents the views of the authors, and the European Commission has no liability in respect of the content.

Viitteet•Bywood, Lindsay, Panayota Georgakopoulou, and Thierry Etchegoyhen. 2017. “Embracing the Threat: Machine Translation as a Solution for Subtitling.” Perspectives: Studies in Translatology 25 (3): 492–508. https://doi.org/10.1080/0907676X.2017.1291695.•Lala, Chiraag, and Lucia Specia. 2018. “Multimodal Lexical Translation.” In Proceedings of the 11th Conference on Language Resources and Evaluation. Miyazaki, Japan.•Laugwitz, Bettina, Theo Held, and Martin Schrepp. 2008. “Construction and Evaluation of a User Experience Questionnaire.” In HCI and Usability for Education and Work. USAB 2008, edited by Andreas Holzinger, 5298:63–76. Lecture Notes in Computer Science. Berlin/Heidelberg: Springer. https://doi.org/10.1007/978-3-540-89350-9-6.•Leijten, Mariëlle, and Luuk Van Waes. 2013. “Keystroke Logging in Writing Research: Using Inputlog to Analyze and Visualize Writing Processes.” Written Communication 30 (3): 358–392. https://doi.org/10.1177/0741088313491692.•Melero, Maite, Antoni Oliver, and Toni Badia. 2006. “Automatic Multilingual Subtitling in the ETITLE Project.” In Proceedings of Translating and the Computer 28,1–18.•Matamala, Anna, and Carla Ortiz-Boix. 2016. “Accessibility and Multilingualism: An Exploratory Study on the Machine Translation of Audio Descriptions.” Trans 20: 11–24. https://doi.org/10.24310/TRANS.2016.v0i20.2059.•Ortiz-Boix, Carla, and Anna Matamala. 2017. “Assessing the Quality of Post-Edited Wildlife Documentaries.” Perspectives: Studies in Translatology 25 (4): 571–593. https://doi.org/10.1080/0907676X.2016.1245763.•Tiedemann, Jörg and Yves Scherrer. 2017. “Neural machine translation with extended context.” In Proceedings of the Third Workshop on Discourse in Machine Translation, pages 82–92, Copenhagen, Denmark. Association for Computational Linguistics.•Tiedemann, Jörg. 2008. “Synchronizing translated movie subtitles.” In Proceedings of the Sixth International Conference on Language Resources and Evaluation (LREC’08), Marrakech, Morocco. European Language Resources Association (ELRA).