shablon - promt · title: shablon author: pashav created date: 6/25/2019 6:33:23 pm

27
Машинный перевод по правилам и без, или Зачем нужна гибридная технология перевода

Upload: others

Post on 27-Sep-2020

9 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: shablon - PROMT · Title: shablon Author: PashaV Created Date: 6/25/2019 6:33:23 PM

Машинный перевод по правилам и без, или Зачем нужна гибридная технология перевода

Page 2: shablon - PROMT · Title: shablon Author: PashaV Created Date: 6/25/2019 6:33:23 PM

Машинный перевод по правилам и без2

Типы систем машинного перевода

‣ Системы, основанные на правилах (rule-based)

‣ Статистические системы (системы, основанные на параллельных двуязычных корпусах)

2

Page 3: shablon - PROMT · Title: shablon Author: PashaV Created Date: 6/25/2019 6:33:23 PM

Машинный перевод по правилам и без3

Rule-based системы

исходнойтекст

морфологическийанализ

синтаксический,семантический

анализсинтезпреобразование

перевод

лингвистическиебазы данных

модуль перевода

правиласинтеза

правилапреобразования

правилаанализа

Page 4: shablon - PROMT · Title: shablon Author: PashaV Created Date: 6/25/2019 6:33:23 PM

Машинный перевод по правилам и без4

Компоненты rule-based систем

Лингвистические базы данных

‣ двуязычные словари‣ морфологические таблицы‣ списки префиксов‣ базы имен

4

Page 5: shablon - PROMT · Title: shablon Author: PashaV Created Date: 6/25/2019 6:33:23 PM

Машинный перевод по правилам и без5

Особенности rule-based систем

Преимущества‣ синтаксическая и морфологическая точность‣ стабильность и предсказуемость результата‣ возможность настройки на предметную область

Недостатки‣ трудоемкость и длительность разработки‣ необходимость поддерживать и актуализировать

лингвистические базы данных‣ «машинный акцент» при переводе

5

Page 6: shablon - PROMT · Title: shablon Author: PashaV Created Date: 6/25/2019 6:33:23 PM

Машинный перевод по правилам и без6

Rule-based переводSince the Desert One debacle, the United States has poured vast resources into its special forces.

Начиная с разгрома Пустыни Один, Соединенные Штаты вылили обширные ресурсы в свой спецназ.

Page 7: shablon - PROMT · Title: shablon Author: PashaV Created Date: 6/25/2019 6:33:23 PM

Машинный перевод по правилам и без7

Статистические системы

Параллельныйкорпус

выравнивание,извлечение

фраз

статистическийдекодер

исходныйтекст

фразоваятаблица

языковаямодель

построениеязыковоймодели

Одноязычныйкорпус

(язык перевода)

перевод

Исходный текст – это «зашифрованный» перевод,который нужно декодировать

Page 8: shablon - PROMT · Title: shablon Author: PashaV Created Date: 6/25/2019 6:33:23 PM

Машинный перевод по правилам и без8

Компоненты статистических систем

Фразовая таблица – таблица соответствий фраз исходного корпуса и корпуса переводов с некоторыми статистическими коэффициентами.

фрагмент фразовой таблицы

исходная перевод статистическиефраза коэффициенты

can download it at можете загрузить его по адресу 1 0.032 0.5 0.01company компания 0.39 0.19 0.12 0.11company компания-эмитент 0.85 0.42 0.01 0.05company кредитной 0.01 0.01 0.01 0.01company название компании 0.11 0.13 0.01 0.01company организации , выпустившей его 1 0.05 0.01 0.37compare all of сравнение всех 1 0.04 0.5 0.03compare all of сравните все 0.33 0.01 0.5 0.07

Page 9: shablon - PROMT · Title: shablon Author: PashaV Created Date: 6/25/2019 6:33:23 PM

Машинный перевод по правилам и без9

Компоненты статистических систем

Языковая модель – набор n-грамм (последовательностей словоформ длины n) из корпуса текстов.

фрагмент языковой модели

статистический n-граммакоэффициент

-4.697978 в ознаменование-4.697978 в оказание-0.766904 <s> метод отправки-0.508603 новые календари </s>-0.528649 в календарь </s>-0.988104 кворума старейшин президентом миссии-1.048399 а также президентом мексиканской

Page 10: shablon - PROMT · Title: shablon Author: PashaV Created Date: 6/25/2019 6:33:23 PM

Машинный перевод по правилам и без10

Особенности статистических системПреимущества‣ Быстрая настройка‣ Легко добавлять новые направления перевода‣ Гладкость перевода

Недостатки‣ «Дефицит» параллельных корпусов‣ Многочисленные грамматические ошибки‣ Нестабильность перевода

10

Page 11: shablon - PROMT · Title: shablon Author: PashaV Created Date: 6/25/2019 6:33:23 PM

Машинный перевод по правилам и без11

СтатистическийпереводMedvedev is to blameМедведев виноват

Obama is to blameОбама не виноват

Page 12: shablon - PROMT · Title: shablon Author: PashaV Created Date: 6/25/2019 6:33:23 PM

Зачем нужна гибридная технология перевода12

Гибридные технологии перевода

ЗадачаСовместить достоинства двух основных подходов и нивелировать их недостатки.

Page 13: shablon - PROMT · Title: shablon Author: PashaV Created Date: 6/25/2019 6:33:23 PM

Зачем нужна гибридная технология перевода13

Подходы к созданию гибридных систем‣ Интеграция лингвистических правил в

статистические системы‣ Интеграция статистических методов в rule-

based системы

13

Page 14: shablon - PROMT · Title: shablon Author: PashaV Created Date: 6/25/2019 6:33:23 PM

Зачем нужна гибридная технология перевода14

Интеграция лингвистических правил в статистические системы‣ Синтаксическая и морфологическая разметка

корпусов для обучения‣ Применение правил для идентификации и

перевода именованных сущностей‣ Разбиение сложных слов‣ Применение правил для идентификации и

перевода отдельных синтаксических конструкций

Решение частных задач не исправляетфундаментальные недостатки статистическогоперевода

14

Page 15: shablon - PROMT · Title: shablon Author: PashaV Created Date: 6/25/2019 6:33:23 PM

Зачем нужна гибридная технология перевода15

Интеграция статистических методов в rule-based системыПроблемаRule-based системы имеют недостатки алгоритмов анализа и синтеза, которые постоянно воспроизводятся при переводе.РешениеНаучить систему автоматически корректировать эти недостатки.

Система статистического постредактирования

Page 16: shablon - PROMT · Title: shablon Author: PashaV Created Date: 6/25/2019 6:33:23 PM

Зачем нужна гибридная технология перевода16

Гибридная технология перевода PROMT‣ Этап обучения системы с помощью

статистических методов

‣ Использование полученных на этапе обучения данных в процессе перевода

16

Page 17: shablon - PROMT · Title: shablon Author: PashaV Created Date: 6/25/2019 6:33:23 PM

Зачем нужна гибридная технология перевода17

Обучение системы

Параллельныйкорпус

фразоваятаблица

языковаямодель

Одноязычныйкорпус

(язык перевода)корпусязыка

перевода

Корпусвходногоязыка

rule-basedсистема

rule-basedперевод

входного корпуса

данныедля статистическогопостредактирования

Page 18: shablon - PROMT · Title: shablon Author: PashaV Created Date: 6/25/2019 6:33:23 PM

Зачем нужна гибридная технология перевода18

Процесс перевода

rule-basedсистема

исходныйтекст

вариантыперевода

rule-basedперевод

модульстатистического

постредактирования

модульязыковыхмоделей

применениепостредактирования

оценка,выбор

лучшего варианта

перевод

Page 19: shablon - PROMT · Title: shablon Author: PashaV Created Date: 6/25/2019 6:33:23 PM

Зачем нужна гибридная технология перевода19

Гибридный перевод

‣ Четкая синтаксическая структура перевода‣ Стабильность‣ Гладкость

19

Page 20: shablon - PROMT · Title: shablon Author: PashaV Created Date: 6/25/2019 6:33:23 PM

Зачем нужна гибридная технология перевода20

Гибридный переводИсходный текстBefore proceeding further, every effort was made by senior staff to ensure that a friendly atmosphere prevailed.

Rule-based переводПрежде, чем продолжиться далее, каждое усилие было приложено руководящим персоналом, чтобы гарантировать, что преобладала дружественная атмосфера.

Гибридный переводПрежде чем продолжить, руководящий персонал предпринял все усилия, чтобы преобладала дружественная атмосфера.

Page 21: shablon - PROMT · Title: shablon Author: PashaV Created Date: 6/25/2019 6:33:23 PM

Зачем нужна гибридная технология перевода21

Гибридный переводИсходный текстIn the dialog box that opens, specify the necessary export settings.

Rule-based переводВ диалоговом окне, которое открывается, определите необходимые настройки экспорта.

Гибридный переводВ открывшемся диалоговом окне укажите требуемые параметрыэкспорта.

Page 22: shablon - PROMT · Title: shablon Author: PashaV Created Date: 6/25/2019 6:33:23 PM

Оценка машинного перевода22

Оценка машинного перевода

Большинство существующих метрикавтоматической оценки МП основанына сравнении с человеческим эталоном.

Необходима метрика оценки МП в отсутствие эталона.

‣ автоматический перевод контента сетевых ресурсов

‣ оценка изменений в технологии перевода

22

Page 23: shablon - PROMT · Title: shablon Author: PashaV Created Date: 6/25/2019 6:33:23 PM

Оценка машинного перевода23

Метрики оценки машинного переводаBLEU ScoreMeteorTER (Translation Error Rate)

Совпадение n-грамм в машинном переводе и эталоне

машинный перевод

Нажмите «Да» в окне сообщения, которое появляется.

эталон

Нажмите «Да» в открывшемся окне сообщения.

совпавшие n-граммы1 Нажмите ; «Да» ; в ; окне2 Нажмите «Да» ; «Да» в3 Нажмите "Да" в

Page 24: shablon - PROMT · Title: shablon Author: PashaV Created Date: 6/25/2019 6:33:23 PM

Оценка машинного перевода24

Оценка машинного перевода без человеческого эталонаСтатистическая языковая модель (Perplexity)

Perplexity – величина, обратно пропорциональная вероятности.

Исходный текстClick Yes in the message window that appears.

Машинный перевод 1Нажмите «Да» в окне сообщения, которое появляется.(Perplexity = 842)

Машинный перевод 2Нажмите «Да» в открывшемся окне сообщения.(Perplexity = 438)

Page 25: shablon - PROMT · Title: shablon Author: PashaV Created Date: 6/25/2019 6:33:23 PM

Оценка машинного перевода25

Оценка машинного перевода без человеческого эталонаPerplexity не учитывает особенности входного текста и грамматическую структуру перевода.

Исходный текстClick Yes in the message window that appears.

Машинный перевод 1Нажмите «Да» в открывшемся окне сообщения.(Perplexity = 438)

Машинный перевод 2Нажмите «Да»(Perplexity = 145)

Page 26: shablon - PROMT · Title: shablon Author: PashaV Created Date: 6/25/2019 6:33:23 PM

Оценка машинного перевода26

Оценка машинного перевода без человеческого эталонаНеобходимо разработать комплекснуюметрику оценки на основе характеристиквходного и выходного текста:

‣ длина текста (количество слов)‣ вероятности перевода слов и фраз‣ совпадение чисел, дат и т.п.‣ оценка с помощью языковой модели‣ морфологические, синтаксические признаки

26

Page 27: shablon - PROMT · Title: shablon Author: PashaV Created Date: 6/25/2019 6:33:23 PM

Спасибо!Александр Молчанов

Компания ПРОМТ[email protected]