tq metric compared sep2009

43
Количественная оценка качества письменного перевода практический опыт Демид Тишин, бюро переводов «Окей» www.allcorrect.ru www.tmetric.ru Сентябрь 2009 г.

Upload: denis-khamin

Post on 24-Jun-2015

951 views

Category:

Technology


3 download

TRANSCRIPT

Page 1: Tq Metric Compared Sep2009

Количественная оценка качества письменного перевода

практический опыт

Демид Тишин, бюро переводов «Окей»

www.allcorrect.ru www.tmetric.ru

Сентябрь 2009 г.

Page 2: Tq Metric Compared Sep2009

Что такое TQ-Metric

Система количественной оценки качества перевода (Translaton Quality Metric = TQ-Metric) методика, которая позволяет «разобрать по косточкам» текст перевода и присвоить ему некоторый численный индекс качества (Translation Quality Index = TQI).

Page 3: Tq Metric Compared Sep2009

TQ-Metric: какой от неё прок?

качество обслуживания

= качество исполнителей

качество тех.процесса

Довольный клиент

Качественная услуга

?"You cannot manage what you cannot measure"

William Hewlett

Page 4: Tq Metric Compared Sep2009

TQ-Metric: какой от неё прок?

!

!

Page 5: Tq Metric Compared Sep2009

TQ-Metric: какой от неё прок?

Основные функции TQ-Metric:1. Оценка квалификации исполнителей при

подборе команды на проект;2. Выходной контроль качества;3. Предоставление числовых статистических

данных для управления качеством;4. Предоставление числовых статистических

данных для управленческого учета (balanced scorecard, KPI и т.д.)

Page 6: Tq Metric Compared Sep2009

TQ-MetricTQ-Metric используют: Lionbridge, Aliquantum, Palex…

Существующие системы:Публичные

SAE J2450ATA Framework for Standard Error MarkingLISA QA Model 3.1

Внутренние разработки переводческих компанийLionbridge TQIБП «Окей» и др.

Обзор TQ-Metric с рекомендациями по созданию:http://www.aliquantum.biz/downloads.htm

Page 7: Tq Metric Compared Sep2009

TQ-Metric

Основополагающие принципы:1) Перевод поддается формализованной оценке2) Чем меньше ошибок и чем они «легче», тем лучше перевод!

Необходимые компоненты системы: Классификатор ошибок с указанием относительного

«веса» каждой ошибки Процедура проверки, дающая повторяемые и

воспроизводимые результаты Проверяющий (компетентный и беспристрастный). Форма оценки

Page 8: Tq Metric Compared Sep2009

Пример классификатора ошибок

Page 9: Tq Metric Compared Sep2009

Пример текста после проверки

Page 10: Tq Metric Compared Sep2009

Пример заполненной формы оценки

Page 11: Tq Metric Compared Sep2009

Подсчет результатов оценкиTQI (Translation Quality Index) – это практический

результат количественной оценки проверки качества перевода.

ATA: TQI = EP*(250/W) - BP

SAE J2450: TQI = EP/W

LISA, Lionbridge, БП Окей: TQI = (1 - EP/W) * 100

где EP = Error Points, суммарное количество баллов ошибок

W = количество слов в образцеBP = Bonus Points, бонусные очки за отличный перевод (в системе ATA – максимум 3 балла)

Page 12: Tq Metric Compared Sep2009

TQ-Metric: альтернативы?Автоматическое сравнение текста перевода с «образцовым» переводом или набором образцов (на предмет совпадения последовательностей слов по различным алгоритмам): BLEU, ROUGE и др.NB! Низкая кореляция с субъективной человеческой оценкой

Page 13: Tq Metric Compared Sep2009

TQ-Metric: альтернативы?Сравнение текста перевода с текстом оригинала по набору критериев, например:

• формальная структура • тема-рематическая и образная структура• функциональный стиль• прагматическая функция

NB! Сложность выставления интегральной оценки

NB! Высокая субъективность оценки

Page 14: Tq Metric Compared Sep2009

Translation Quality MetricПреимущества:Максимальная объективность оценки за

счет формализованной процедуры и использования классификатора ошибок;

Удобство предоставления обратной связи исполнителям;

Возможность подстройки под конкретные условия (специфику проекта) – гибкий подход к принятию решения;

Page 15: Tq Metric Compared Sep2009

Translation Quality Metric

Преимущества:Удобство сохранения и использования

результатов, наглядное представление о сильных и слабых сторонах переводчика;

Объективные данные для улучшения технологического процесса

Page 16: Tq Metric Compared Sep2009

Translation Quality MetricНедостатки и открытые вопросы:Общедоступные системы рассматривают текст

как линейную структуру. Как оценивать повторяющиеся однотипные ошибки?

В общедоступных системах недостаточно четко прописана процедура присваивания веса ошибки (особенно в LISA QA Model 3.1).

Должна ли оцениваться передача не-текстовых элементов? (изображения и схемы, программный код и т.п.)

Page 17: Tq Metric Compared Sep2009

Translation Quality Metric

Недостатки и открытые вопросы:Как оценивать недочеты перевода,

обусловленные неустранимыми недочетами оригинала 1) при тестировании переводчиков 2) при выходном контроле качества?

Как совместить понятие клиента о качестве и понятие об «объективном» качестве в рамках одной системы?

Page 18: Tq Metric Compared Sep2009

Translation Quality Metric

Недостатки и открытые вопросы:Сколько должно быть проверяющих?В общедоступных системах не прописаны

требования к проверяющим Проверяющего сложно подобрать

(должен обладать редким сочетанием компетенций и навыков)

Проверяющего необходимо обучить Заполнение формы оценки требует времени

Page 19: Tq Metric Compared Sep2009

Translation Quality Metric

Недостатки и открытые вопросы:Какие критерии учитывать в

классификаторе?• Структурно-лингвистический критерий• Критерий коммуникативного эффекта• Критерий источника ошибки

Page 20: Tq Metric Compared Sep2009

Системы TQ-Metric в сравнении

• ATA Framework for Standard Error Marking

• SAE J2450• LISA QA Model 3.1.2• БП Окей

Page 21: Tq Metric Compared Sep2009

Системы TQ-Metric в сравнении:охватываемые типы текстов

АТА SAE J2450 LISA QA Model 3.1

БП Окей

любые* за исключением текстов, для которых стиль является существенным компонентом.

классификатор оптимизирован

под ПО; теоретически

любые *

за исключением художественных текстов

*возможность применения в учебном процессе, при сертификации переводчиков, в издательствах, переводческих компаниях и т.д.

Page 22: Tq Metric Compared Sep2009

Системы TQ-Metric в сравнении:требования к образцам

АТА SAE J2450

LISA QA Model 3.1

БП Окей

225-275 английских слов либо эквивалент на другом языке

нет нет 400-750 слов*;при тестировании переводчиков и редакторов на проект содержание терминов в тест-задании ≥ 5% количества слов

*высокая надежность результатов

Page 23: Tq Metric Compared Sep2009

Системы TQ-Metric в сравнении:Количество классов ошибок

АТА SAE J2450 LISA QA Model 3.1

БП Окей

21* 7 26* 16

*Увеличивает время на идентификацию типа ошибки.

Page 24: Tq Metric Compared Sep2009

Системы TQ-Metric в сравнении: Полнота классификатора

АТА SAE J2450 LISA QA Model 3.1

БП Окей

да Не охватывает стилистические ошибки, недочеты внешнего вида и оформления

да;классификатор включает также

неязыковые компоненты**

да

** дизайн, графику, гиперссылки, совместимость ПО, дружественность и функциональность интерфейса, ошибки программного кода

Page 25: Tq Metric Compared Sep2009

Системы TQ-Metric в сравнении: Критерии классификации ошибок

АТА SAE J2450

LISA QA Model

3.1

БП Окей

Структурно-лингвистический

+ + + +

Критерий коммуникативного

эффекта

- + - +

Критерий источника ошибки

+ - - -

Page 26: Tq Metric Compared Sep2009

Системы TQ-Metric в сравнении: Строгость построения классификатора

АТА SAE J2450 LISA QA Model 3.1 БП Окей

нет* нет* да; предельно

формализованные критерии с множеством

примеров*

нет*

* классификатор построен на непоследовательном сочетании разных принципов;** на практике упрощает определение типа ошибки

Page 27: Tq Metric Compared Sep2009

Системы TQ-Metric в сравнении:Количество градаций веса ошибки

АТА SAE J2450 LISA QA Model 3.1

БП Окей

6** 2 3* 2

* В описании системы не указано четких критериев для определения веса ошибки. По-видимому, для определения веса следует использовать критерии FMEA, но они общие и требуют конкретизации применительно к локализации.**Гибкость (максимальный учет контекста)

Page 28: Tq Metric Compared Sep2009

Системы TQ-Metric в сравнении:Ограничения на максимальный вес

ошибки в зависимости от класса

АТА SAE J2450 LISA QA Model 3.1

БП Окей

нет* да нет* да

*Гибкость (максимальный учет контекста)

Page 29: Tq Metric Compared Sep2009

Ограничения на максимальный вес ошибки в зависимости от класса

оригинал перевод баллTo reduce the noise different types of low noise valves and grill plates will be foreseen.

Для снижения уровня шума следует предусмотреть разные типы малошумящей арматуры и вентиляционных решеток

5 (Т1)

Construction employs 15 full length tie bolts that compress the discs <…> thereby forming a rigid rotor.

В конструкции применяются 15 стяжных болтов, которые сжимают рабочие колеса <…> образуя жесткий вал.

Балл один и тот же (5), а серьёзность ошибок различная:

в первом примере ошибка может привести к неверным действиям персонала , а во втором случае – нет

Page 30: Tq Metric Compared Sep2009

Системы TQ-Metric в сравнении:количество действий для оценки ошибки

АТА SAE J2450 LISA QA Model 3.1

БП Окей

3 2 2 1-2*

*Чем более формален классификатор, тем меньше действий требуется для оценки ошибки (экономия времени)

Page 31: Tq Metric Compared Sep2009

Подсчет результатов оценкиПороговые значения TQI:

NB! TQI из разных систем не подлежат прямому сравнению!

АТА SAE J2450

LISA QA Model 3.1

БП Окей

18 (т.е. 18 баллов ошибок на 250 слов)

не задано

устанавливается пользователем

для каждого проекта

Для переводчика = 86 (т.е. 14 баллов ошибок

на 100 слов), определён эмпирически.

Для сдачи клиенту: 91 и выше, в

зависимости от проекта.

Page 32: Tq Metric Compared Sep2009

Системы TQ-Metric в сравнении: Зачитываются ли ошибки, вызванные

неустранимыми недостатками оригинала (отсутствие контекста, невразумительное и

неграмотное изложение)?

АТА SAE J2450 LISA QA Model 3.1

БП Окей

нет данных да нет* нет*

*Системы хорошо приспособлены ко входному тестированию квалификации исполнителей

Page 33: Tq Metric Compared Sep2009

Системы TQ-Metric в сравнении: Если проверяющий сталкивается

с аналогичной ошибкойАТА SAE J2450 LISA QA

Model 3.1БП Окей

нет данных

зачитывается каждый случай неверного употребления

нет данных

При тестировании команды на проект – если однотипная ошибка ОФОРМЛЕНИЯ повторяется по всему тексту (использование точки вместо запятой для отделения дробной части, употребление лишних заглавных букв в имени собственном и т.д.), она зачитывается один раз. При выходном контроле - зачитывается каждый случай неверного употребления

Page 34: Tq Metric Compared Sep2009

Сравнение систем в действииИсходные данные

• 3 тест-задания в разных тематиках: Энергетика (описание газовой турбины)Нефтепереработка (звукоизоляция оборудования)Юриспруденция (генеральное соглашение оказания услуг)

• 5 кандидатов в каждой тематике• 4 системы проверки• 2 проверяющих

РЕЗУЛЬТАТ: 120 заполненных форм оценки.

Page 35: Tq Metric Compared Sep2009

Субъективность оценкиОтношение между средним удельным баллом ошибок(по всем тематикам) после проверки разными людьми:

EP(средн.)1-й чел.

EP(средн.)2-й чел.

Kсубъектив. =

АТА SAE J2450 LISA QA Model 3.1

БП Окей

1,5 1,0 1,1 1,0

Page 36: Tq Metric Compared Sep2009

Субъективность оценки• Средний коэффициент по всем тематикам 1,0

у систем SAE J2450 и БП Окей, а также коэффициент 1,1 у LISA QA Model 3.1 говорит о том, что субъективность оценки минимальна. Следовательно, перевод может проверять один человек, и затраты на проверку низкие.

• Средний коэффициент по всем тематикам 1,5 у системы ATA (а по тематике «газовые турбины» даже 2,0) говорит о высокой субъективности оценки. Следовательно, для получения достоверных результатов минимальное количество проверяющих равняется двум, что удваивает затраты на оценку качества.

Page 37: Tq Metric Compared Sep2009

Распределение балла ошибок между тематиками (среднее по 2-м проверяющим)

Рисунок отличается

Рисунок практически идентичен

Page 38: Tq Metric Compared Sep2009

• Системы SAE J2450, LISA QA Model 3.1 и БП Окей дают сходные результаты при различных принципах построения классификатора.

• Рисунок распределения баллов по тематикам в системе АТА значительно отличается. Вероятная причина – нелинейная зависимость между ступенью ошибки и её весом в баллах

Распределение среднего балла ошибок в разных системах

Page 39: Tq Metric Compared Sep2009

Зависимость между ступенью ошибки и её весом в баллах

Ступень ошибки

Вес

ош

иб

ки

Page 40: Tq Metric Compared Sep2009

Средняя скорость оценки 1 тест-задания

АТА SAE J2450 LISA QA Model 3.1

БП Окей

13 мин.* 9 мин. 11 мин.7,5 мин.**

9 мин.5 мин.**

при условии предварительного тщательного изучения текста оригинала

* За счет большого количества стадий проверки** С использованием специального ПО

Page 41: Tq Metric Compared Sep2009

АТА SAE J2450 LISA QA Model 3.1

БП Окей

Область применения

Без ограничений

Жесткие ограничения

Без ограничений

Некоторые ограничения

Удобство классификатора

Среднее Высокое Высокое Среднее

Простота определения веса ошибки

Средняя Высокая Низкая Высокая

Стройность метода оценки

Высокая Средняя Низкая Низкая

Воспроизводимость результатов

Низкая Высокая Средняя Высокая

Выводы

Page 42: Tq Metric Compared Sep2009

АТА SAE J2450 LISA QA Model 3.1

БП Окей

Вероятность идентификации

ошибки

Средняя Средняя Высокая Средняя

Лёгкость внедрения

Низкая* Высокая Высокая Высокая

Функциональность ПО

Отсутствует Отсутствует Средняя Высокая

Стартовая экономия

Высокая Высокая Низкая Средняя

Долгосрочная экономия

Низкая* Высокая Высокая Высокая

Выводы

* При условии привлечения к оценке двух проверяющих

Page 43: Tq Metric Compared Sep2009

Бюро переводов «Окей»оказывает услуги консалтинга:

•Управление качеством•Автоматизированный контроль качества (QA Tools)•Оптимизация бизнес-процессов•Управление персоналом•IT-инфраструктура•Программы памяти переводов•Translation Management Systems