konekäännös tekstityksen tukenatextmine/events/tew-t... · programme under grant agreement no...
TRANSCRIPT
@memadprojectMeMAD Project
MeMAD project has received funding from the European Union’s Horizon 2020 research and innovation programme under grant agreement No 780069. This presentation has been produced by theMeMAD project. The content in this presentation represents the views of the authors, and the European Commission has no liability in respect of the content.
Konekäännös tekstityksen tukenaMaarit Koponen, Helsingin [email protected]
MeMAD project has received funding from the European Union’s Horizon 2020 research and innovation programme under grant agreement No 780069. This presentation has been produced by theMeMAD project. The content in this presentation represents the views of the authors, and the European Commission has no liability in respect of the content.
MeMAD - Methods for Managing Audiovisual Data
MeMAD project has received funding from the European Union’s Horizon 2020 research and innovation programme under grant agreement No 780069. This presentation has been produced by theMeMAD project. The content in this presentation represents the views of the authors, and the European Commission has no liability in respect of the content.
Konekääntäminen MeMAD-hankkeessa● WP4 Multimodaalinen ja monikielinen konekääntäminen● Kääntimien kehitystyö HY digitaalisten ihmistieteiden laitos
○ Neuroverkkokääntimet (avoimen lähdekoodin MarianNMT)○ Avoimet rinnakkaistekstikorpukset (OPUS, http://opus.nlpl.eu/ ),
mm. elokuva- ja televisiotekstityskorpus OpenSubtitles○ Projektin käytössä myös pienehkö korpus YLEn tekstitys- ja av-aineistoa
● Pääasialliset kielet suomi, ruotsi, englanti sekä ranska, hollanti, saksa● Käännöstekstitys, videoiden kuvailun ja metatietojen kääntäminen● Täysin automaattinen konekäännös vs konekäännös kääntäjän apuvälineenä
MeMAD project has received funding from the European Union’s Horizon 2020 research and innovation programme under grant agreement No 780069. This presentation has been produced by theMeMAD project. The content in this presentation represents the views of the authors, and the European Commission has no liability in respect of the content.
Multimodaalinen konekääntäminen
Esimerkin lähde: Lala & Specia 2018
MeMAD project has received funding from the European Union’s Horizon 2020 research and innovation programme under grant agreement No 780069. This presentation has been produced by theMeMAD project. The content in this presentation represents the views of the authors, and the European Commission has no liability in respect of the content.
Konekäännös, jälkieditointi ja av-kääntäminen● Konekäännöksen jälkieditointi on yleistyvä osa käännösprosessia erityisesti
asiatekstikääntämisessä○ Tilanne kuitenkin vaihtelee eri maissa ja eri kielipareissa
● Audiovisuaalisessa ympäristössä konekäännöstä ja jälkieditointia on testattu esimerkiksi joissakin eurooppalaisissa projekteissa
○ eTITLE (Melero ym. 2006), SUMAT (Bywood ym. 2017), ALST (Ortiz-Boix & Matamala 2017)
● Kaikkiaan konekäännöksen ja jälkieditoinnin käyttö vaikuttaa kuitenkin av-kääntämisessä vielä melko vähäiseltä (ks. Díaz-Cintas & Massidda 2019)
MeMAD project has received funding from the European Union’s Horizon 2020 research and innovation programme under grant agreement No 780069. This presentation has been produced by theMeMAD project. The content in this presentation represents the views of the authors, and the European Commission has no liability in respect of the content.
Tekstityksen jälkieditoinnin käyttäjätestaus● Osallistujina yhteensä 12 av-kääntäjää (työkokemus 4–30 vuotta)
○ Kahdella aiempaa kokemusta konekäännöksen käytöstä käännöstekstityksessä● 4 kieliparia: suomi-englanti, suomi-ruotsi, englanti-suomi, ruotsi-suomi● Koeaineistona kussakin kieliparissa 6 videoklippiä
○ Klipin pituus n. 3 min, ohjelmatekstityksessä n. 30-35 repliikkiä○ Kaksi aineistotyyppiä: eurovaalikeskustelut ja viihdeohjelma
● Kaksi konekäännöstä per klippi: lausetason malli ja ”kontekstitietoinen” malli● Konekäännösten lähtötekstinä ihmisen tekemä ohjelmatekstitys (ei siis audio)
○ Käännetään yksittäisistä repliikeistä muodostuvia virkkeitä tai pidempiä pätkiä, sitten käännös jaetaan takaisin ajastettuihin repliikkeihin (ks. Tiedemann & Scherrer 2017; Tiedemann 2008)
MeMAD project has received funding from the European Union’s Horizon 2020 research and innovation programme under grant agreement No 780069. This presentation has been produced by theMeMAD project. The content in this presentation represents the views of the authors, and the European Commission has no liability in respect of the content.
Tekstittäjän näkymä (Wincaps Q4)
MeMAD project has received funding from the European Union’s Horizon 2020 research and innovation programme under grant agreement No 780069. This presentation has been produced by theMeMAD project. The content in this presentation represents the views of the authors, and the European Commission has no liability in respect of the content.
Prosessiaineiston keruu● Kukin osallistuja tekstitti 6 klippiä:
○ 2 klippiä ilman konekäännöstä○ 2 klippiä lausetason konekäännös○ 2 klippiä ”kontekstitietoinen” konekäännös
● Ohjeena tuottaa esityskelpoinen käännös käyttämättä kuitenkaan liiaksi aikaa minkään yksittäisen kohdan hiomiseen
● Osallistujilla käytössä tuttu tekstitysohjelmaa ja tavanomaiset tietolähteet ym.● Tekstittämisen aikana käännösprosessista kerättiin prosessiaineistoa
näppäilyntallennusohjelmalla (Inputlog, Leijten & Van Waes 2013)
MeMAD project has received funding from the European Union’s Horizon 2020 research and innovation programme under grant agreement No 780069. This presentation has been produced by theMeMAD project. The content in this presentation represents the views of the authors, and the European Commission has no liability in respect of the content.
Käyttökokemuksen arviointi - UEQ● Jokaisen jälkieditointityön jälkeen osallistujat täyttivät käyttökokemusta
arvioivan kyselyn (User Experience Questionnaire, Laugwitz ym. 2008)UEQ: https://www.ueq-online.org/
MeMAD project has received funding from the European Union’s Horizon 2020 research and innovation programme under grant agreement No 780069. This presentation has been produced by theMeMAD project. The content in this presentation represents the views of the authors, and the European Commission has no liability in respect of the content.
Havaintoja: tehtävien kestoKeskimääräinen tehtävän kesto (min) osallistujittain,konekäännöksen jälkieditointi (vas) vs ilman konekäännöstä (oik)
Tehtävän kestossa on huomioitu nimenomaan tekstitysohjelmassa tehty työ, internet-haut ym. on rajattu pois
MeMAD project has received funding from the European Union’s Horizon 2020 research and innovation programme under grant agreement No 780069. This presentation has been produced by theMeMAD project. The content in this presentation represents the views of the authors, and the European Commission has no liability in respect of the content.
Havaintoja: näppäimenlyönnitKeskimääräinen näppäimenlyöntien lukumäärä osallistujittain,konekäännöksen jälkieditointi (vas) vs ilman konekäännöstä (oik)
Näppäimenlyöntien lukumäärässä on huomioitu nimenomaan tekstitysohjelmassa tehty työ, internet-haut ym. on rajattu pois
MeMAD project has received funding from the European Union’s Horizon 2020 research and innovation programme under grant agreement No 780069. This presentation has been produced by theMeMAD project. The content in this presentation represents the views of the authors, and the European Commission has no liability in respect of the content.
Esimerkki muokkauksista
MeMAD project has received funding from the European Union’s Horizon 2020 research and innovation programme under grant agreement No 780069. This presentation has been produced by theMeMAD project. The content in this presentation represents the views of the authors, and the European Commission has no liability in respect of the content.
Käyttäjä-kokemus
Käyttäjäkokemuslomakkeen asteikkoarviot muunnettuna välille -3 … +3
Jälkieditointitehtävistä annettujen arvioiden keskiarvot kielipareittain, ylhäältä alas:englanti-suomiruotsi-suomisuomi-englantisuomi-ruotsi
MeMAD project has received funding from the European Union’s Horizon 2020 research and innovation programme under grant agreement No 780069. This presentation has been produced by theMeMAD project. The content in this presentation represents the views of the authors, and the European Commission has no liability in respect of the content.
Esimerkki repliikkijaon ongelmista
MeMAD project has received funding from the European Union’s Horizon 2020 research and innovation programme under grant agreement No 780069. This presentation has been produced by theMeMAD project. The content in this presentation represents the views of the authors, and the European Commission has no liability in respect of the content.
Osallistujen kommentteja● Koetilanteen lopuksi lyhyt puolistrukturoitu haastattelu● Negatiivisia kommentteja:
○ Suurin osa käsitteli repliikkijakoa ja ajastusta○ Konekäännöksen laatuun liittyvinä asioina väärät ja ”oudot” sanat sekä muut käännösvirheet,
epäidiomaattiset rakenteet; mahdollinen vaikutus omaan prosessiin ja lopputulokseen● Positiivisia kommentteja:
○ Konekäännöksen laatua luonnehdittiin kuitenkin varsin hyväksi (”parempi kuin odotin”) ja osa koki sen käytöstä olevan hyötyä ainakin joissakin sisältötyypeissä
○ Yksittäisenä hyödyllisenä tekijänä mainittiin konekäännöksen valmiina tarjoama terminologia● ”No siis välillähän ne on yllättävän hyviä, mutta sitten toisaalta välillä ne on
yllättävän huonoja”
MeMAD project has received funding from the European Union’s Horizon 2020 research and innovation programme under grant agreement No 780069. This presentation has been produced by theMeMAD project. The content in this presentation represents the views of the authors, and the European Commission has no liability in respect of the content.
Osallistujien kehitysehdotuksia● Repliikkijaon ja ajastuksen yleinen korjaaminen
– puhujien vaihdokset apuvälineenä?● Konekäännös kokonaisuutena erillisessä näytössä, ei valmiina repliikeissä● ”Käännösmuistimaisempi” käyttötapa ja termistöjen yhdistäminen ● Ääniraidan puheesta transkripti● Tilarajoitteiden tunnistaminen, käännöksen tiivistäminen● Koheesion parantaminen● Mukautuminen eri tyylilajeihin
MeMAD project has received funding from the European Union’s Horizon 2020 research and innovation programme under grant agreement No 780069. This presentation has been produced by theMeMAD project. The content in this presentation represents the views of the authors, and the European Commission has no liability in respect of the content.
Mitä opimme pilotista?● Konekäännöksen jälkieditointi voisi av-kääntäjällekin olla apuväline –
mutta haasteita riittää vielä ratkaistavaksi○ Repliikkijaossa ja ajastuksessa ilmenneet ongelmat vaikuttivat keskeisiltä tekijöiltä○ Kaikki konekäännöksiin tehdyt muutokset eivät välttämättä liity suoranaisiin virheisiin vaan
esim. av-kääntämiselle ominaiseen tiivistämiseen● Vaikka prosessimittareilla (aika tms.) nähtäisiin hyötyä, myös käyttäjän
kokemukseen on syytä kiinnittää huomiota● Seuraavaksi: multimodaalisen informaation hyödyntäminen – esim. puhujien
tunnistaminen, merkitysten yksiselitteistäminen, kontekstitietoisuus
@memadprojectMeMAD Project
MeMAD project has received funding from the European Union’s Horizon 2020 research and innovation programme under grant agreement No 780069. This presentation has been produced by theMeMAD project. The content in this presentation represents the views of the authors, and the European Commission has no liability in respect of the content.
Kiitos!
Yhteistyössä: Kaisa Vitikainen, Umut Sulubacak, Jörg Tiedemann
MeMAD project has received funding from the European Union’s Horizon 2020 research and innovation programme under grant agreement No 780069. This presentation has been produced by theMeMAD project. The content in this presentation represents the views of the authors, and the European Commission has no liability in respect of the content.
Viitteet•Bywood, Lindsay, Panayota Georgakopoulou, and Thierry Etchegoyhen. 2017. “Embracing the Threat: Machine Translation as a Solution for Subtitling.” Perspectives: Studies in Translatology 25 (3): 492–508. https://doi.org/10.1080/0907676X.2017.1291695.•Lala, Chiraag, and Lucia Specia. 2018. “Multimodal Lexical Translation.” In Proceedings of the 11th Conference on Language Resources and Evaluation. Miyazaki, Japan.•Laugwitz, Bettina, Theo Held, and Martin Schrepp. 2008. “Construction and Evaluation of a User Experience Questionnaire.” In HCI and Usability for Education and Work. USAB 2008, edited by Andreas Holzinger, 5298:63–76. Lecture Notes in Computer Science. Berlin/Heidelberg: Springer. https://doi.org/10.1007/978-3-540-89350-9-6.•Leijten, Mariëlle, and Luuk Van Waes. 2013. “Keystroke Logging in Writing Research: Using Inputlog to Analyze and Visualize Writing Processes.” Written Communication 30 (3): 358–392. https://doi.org/10.1177/0741088313491692.•Melero, Maite, Antoni Oliver, and Toni Badia. 2006. “Automatic Multilingual Subtitling in the ETITLE Project.” In Proceedings of Translating and the Computer 28,1–18.•Matamala, Anna, and Carla Ortiz-Boix. 2016. “Accessibility and Multilingualism: An Exploratory Study on the Machine Translation of Audio Descriptions.” Trans 20: 11–24. https://doi.org/10.24310/TRANS.2016.v0i20.2059.•Ortiz-Boix, Carla, and Anna Matamala. 2017. “Assessing the Quality of Post-Edited Wildlife Documentaries.” Perspectives: Studies in Translatology 25 (4): 571–593. https://doi.org/10.1080/0907676X.2016.1245763.•Tiedemann, Jörg and Yves Scherrer. 2017. “Neural machine translation with extended context.” In Proceedings of the Third Workshop on Discourse in Machine Translation, pages 82–92, Copenhagen, Denmark. Association for Computational Linguistics.•Tiedemann, Jörg. 2008. “Synchronizing translated movie subtitles.” In Proceedings of the Sixth International Conference on Language Resources and Evaluation (LREC’08), Marrakech, Morocco. European Language Resources Association (ELRA).