tq metric compared sep2009

Количественная оценка качества письменного перевода

практический опыт

Демид Тишин, бюро переводов «Окей»

www.allcorrect.ru www.tmetric.ru

Сентябрь 2009 г.

http://www.allcorrect.ru/

http://www.tmetric.ru/

Что такое TQ-Metric

Система количественной оценки качества перевода (Translaton Quality Metric = TQ-Metric) методика, которая позволяет «разобрать по косточкам» текст перевода и присвоить ему некоторый численный индекс качества (Translation Quality Index = TQI).

TQ-Metric: какой от неё прок?

качество обслуживания

= качество исполнителей

качество тех.процесса

Довольный клиент

Качественная услуга

?"You cannot manage what you cannot measure"

William Hewlett


!

!


Основные функции TQ-Metric:1. Оценка квалификации исполнителей при

подборе команды на проект;2. Выходной контроль качества;3. Предоставление числовых статистических

данных для управления качеством;4. Предоставление числовых статистических

данных для управленческого учета (balanced scorecard, KPI и т.д.)

TQ-MetricTQ-Metric используют: Lionbridge, Aliquantum, Palex…

Существующие системы:Публичные

SAE J2450ATA Framework for Standard Error MarkingLISA QA Model 3.1

Внутренние разработки переводческих компанийLionbridge TQIБП «Окей» и др.

Обзор TQ-Metric с рекомендациями по созданию:http://www.aliquantum.biz/downloads.htm

http://www.aliquantum.biz/downloads.htm

TQ-Metric

Основополагающие принципы:1) Перевод поддается формализованной оценке2) Чем меньше ошибок и чем они «легче», тем лучше перевод!

Необходимые компоненты системы: Классификатор ошибок с указанием относительного

«веса» каждой ошибки Процедура проверки, дающая повторяемые и

воспроизводимые результаты Проверяющий (компетентный и беспристрастный). Форма оценки

Пример классификатора ошибок

Пример текста после проверки

Пример заполненной формы оценки

Подсчет результатов оценкиTQI (Translation Quality Index) – это практический

результат количественной оценки проверки качества перевода.

ATA: TQI = EP*(250/W) - BP

SAE J2450: TQI = EP/W

LISA, Lionbridge, БП Окей: TQI = (1 - EP/W) * 100

где EP = Error Points, суммарное количество баллов ошибок

W = количество слов в образцеBP = Bonus Points, бонусные очки за отличный перевод (в системе ATA – максимум 3 балла)

TQ-Metric: альтернативы?Автоматическое сравнение текста перевода с «образцовым» переводом или набором образцов (на предмет совпадения последовательностей слов по различным алгоритмам): BLEU, ROUGE и др.NB! Низкая кореляция с субъективной человеческой оценкой

TQ-Metric: альтернативы?Сравнение текста перевода с текстом оригинала по набору критериев, например:

• формальная структура • тема-рематическая и образная структура• функциональный стиль• прагматическая функция

NB! Сложность выставления интегральной оценки

NB! Высокая субъективность оценки

Translation Quality MetricПреимущества:Максимальная объективность оценки за

счет формализованной процедуры и использования классификатора ошибок;

Удобство предоставления обратной связи исполнителям;

Возможность подстройки под конкретные условия (специфику проекта) – гибкий подход к принятию решения;

Translation Quality Metric

Преимущества:Удобство сохранения и использования

результатов, наглядное представление о сильных и слабых сторонах переводчика;

Объективные данные для улучшения технологического процесса

Translation Quality MetricНедостатки и открытые вопросы:Общедоступные системы рассматривают текст

как линейную структуру. Как оценивать повторяющиеся однотипные ошибки?

В общедоступных системах недостаточно четко прописана процедура присваивания веса ошибки (особенно в LISA QA Model 3.1).

Должна ли оцениваться передача не-текстовых элементов? (изображения и схемы, программный код и т.п.)


Недостатки и открытые вопросы:Как оценивать недочеты перевода,

обусловленные неустранимыми недочетами оригинала 1) при тестировании переводчиков 2) при выходном контроле качества?

Как совместить понятие клиента о качестве и понятие об «объективном» качестве в рамках одной системы?


Недостатки и открытые вопросы:Сколько должно быть проверяющих?В общедоступных системах не прописаны

требования к проверяющим Проверяющего сложно подобрать

(должен обладать редким сочетанием компетенций и навыков)

Проверяющего необходимо обучить Заполнение формы оценки требует времени


Недостатки и открытые вопросы:Какие критерии учитывать в

классификаторе?• Структурно-лингвистический критерий• Критерий коммуникативного эффекта• Критерий источника ошибки

Системы TQ-Metric в сравнении

• ATA Framework for Standard Error Marking

• SAE J2450• LISA QA Model 3.1.2• БП Окей

Системы TQ-Metric в сравнении:охватываемые типы текстов

АТА SAE J2450 LISA QA Model 3.1

БП Окей

любые* за исключением текстов, для которых стиль является существенным компонентом.

классификатор оптимизирован

под ПО; теоретически

любые *

за исключением художественных текстов

*возможность применения в учебном процессе, при сертификации переводчиков, в издательствах, переводческих компаниях и т.д.

Системы TQ-Metric в сравнении:требования к образцам

АТА SAE J2450

LISA QA Model 3.1

БП Окей

225-275 английских слов либо эквивалент на другом языке

нет нет 400-750 слов*;при тестировании переводчиков и редакторов на проект содержание терминов в тест-задании ≥ 5% количества слов

*высокая надежность результатов

Системы TQ-Metric в сравнении:Количество классов ошибок


БП Окей

21* 7 26* 16

*Увеличивает время на идентификацию типа ошибки.

Системы TQ-Metric в сравнении: Полнота классификатора


БП Окей

да Не охватывает стилистические ошибки, недочеты внешнего вида и оформления

да;классификатор включает также

неязыковые компоненты**

да

** дизайн, графику, гиперссылки, совместимость ПО, дружественность и функциональность интерфейса, ошибки программного кода

Системы TQ-Metric в сравнении: Критерии классификации ошибок

АТА SAE J2450

LISA QA Model

3.1

БП Окей

Структурно-лингвистический

+ + + +

Критерий коммуникативного

эффекта

- + - +

Критерий источника ошибки

+ - - -

Системы TQ-Metric в сравнении: Строгость построения классификатора

АТА SAE J2450 LISA QA Model 3.1 БП Окей

нет* нет* да; предельно

формализованные критерии с множеством

примеров*

нет*

* классификатор построен на непоследовательном сочетании разных принципов;** на практике упрощает определение типа ошибки

Системы TQ-Metric в сравнении:Количество градаций веса ошибки


БП Окей

6** 2 3* 2

* В описании системы не указано четких критериев для определения веса ошибки. По-видимому, для определения веса следует использовать критерии FMEA, но они общие и требуют конкретизации применительно к локализации.**Гибкость (максимальный учет контекста)

Системы TQ-Metric в сравнении:Ограничения на максимальный вес

ошибки в зависимости от класса


БП Окей

нет* да нет* да

*Гибкость (максимальный учет контекста)

Ограничения на максимальный вес ошибки в зависимости от класса

оригинал перевод баллTo reduce the noise different types of low noise valves and grill plates will be foreseen.

Для снижения уровня шума следует предусмотреть разные типы малошумящей арматуры и вентиляционных решеток

5 (Т1)

Construction employs 15 full length tie bolts that compress the discs <…> thereby forming a rigid rotor.

В конструкции применяются 15 стяжных болтов, которые сжимают рабочие колеса <…> образуя жесткий вал.

Балл один и тот же (5), а серьёзность ошибок различная:

в первом примере ошибка может привести к неверным действиям персонала , а во втором случае – нет

Системы TQ-Metric в сравнении:количество действий для оценки ошибки


БП Окей

3 2 2 1-2*

*Чем более формален классификатор, тем меньше действий требуется для оценки ошибки (экономия времени)

Подсчет результатов оценкиПороговые значения TQI:

NB! TQI из разных систем не подлежат прямому сравнению!

АТА SAE J2450

LISA QA Model 3.1

БП Окей

18 (т.е. 18 баллов ошибок на 250 слов)

не задано

устанавливается пользователем

для каждого проекта

Для переводчика = 86 (т.е. 14 баллов ошибок

на 100 слов), определён эмпирически.

Для сдачи клиенту: 91 и выше, в

зависимости от проекта.

Системы TQ-Metric в сравнении: Зачитываются ли ошибки, вызванные

неустранимыми недостатками оригинала (отсутствие контекста, невразумительное и

неграмотное изложение)?


БП Окей

нет данных да нет* нет*

*Системы хорошо приспособлены ко входному тестированию квалификации исполнителей

Системы TQ-Metric в сравнении: Если проверяющий сталкивается

с аналогичной ошибкойАТА SAE J2450 LISA QA

Model 3.1БП Окей

нет данных

зачитывается каждый случай неверного употребления

нет данных

При тестировании команды на проект – если однотипная ошибка ОФОРМЛЕНИЯ повторяется по всему тексту (использование точки вместо запятой для отделения дробной части, употребление лишних заглавных букв в имени собственном и т.д.), она зачитывается один раз. При выходном контроле - зачитывается каждый случай неверного употребления

Сравнение систем в действииИсходные данные

• 3 тест-задания в разных тематиках: Энергетика (описание газовой турбины)Нефтепереработка (звукоизоляция оборудования)Юриспруденция (генеральное соглашение оказания услуг)

• 5 кандидатов в каждой тематике• 4 системы проверки• 2 проверяющих

РЕЗУЛЬТАТ: 120 заполненных форм оценки.

Субъективность оценкиОтношение между средним удельным баллом ошибок(по всем тематикам) после проверки разными людьми:

EP(средн.)1-й чел.

EP(средн.)2-й чел.

Kсубъектив. =


БП Окей

1,5 1,0 1,1 1,0

Субъективность оценки• Средний коэффициент по всем тематикам 1,0

у систем SAE J2450 и БП Окей, а также коэффициент 1,1 у LISA QA Model 3.1 говорит о том, что субъективность оценки минимальна. Следовательно, перевод может проверять один человек, и затраты на проверку низкие.

• Средний коэффициент по всем тематикам 1,5 у системы ATA (а по тематике «газовые турбины» даже 2,0) говорит о высокой субъективности оценки. Следовательно, для получения достоверных результатов минимальное количество проверяющих равняется двум, что удваивает затраты на оценку качества.

Распределение балла ошибок между тематиками (среднее по 2-м проверяющим)

Рисунок отличается

Рисунок практически идентичен

• Системы SAE J2450, LISA QA Model 3.1 и БП Окей дают сходные результаты при различных принципах построения классификатора.

• Рисунок распределения баллов по тематикам в системе АТА значительно отличается. Вероятная причина – нелинейная зависимость между ступенью ошибки и её весом в баллах

Распределение среднего балла ошибок в разных системах

Зависимость между ступенью ошибки и её весом в баллах

Ступень ошибки

Вес

ош

иб

ки

Средняя скорость оценки 1 тест-задания


БП Окей

13 мин.* 9 мин. 11 мин.7,5 мин.**

9 мин.5 мин.**

при условии предварительного тщательного изучения текста оригинала

* За счет большого количества стадий проверки** С использованием специального ПО


БП Окей

Область применения

Без ограничений

Жесткие ограничения

Без ограничений

Некоторые ограничения

Удобство классификатора

Среднее Высокое Высокое Среднее

Простота определения веса ошибки

Средняя Высокая Низкая Высокая

Стройность метода оценки

Высокая Средняя Низкая Низкая

Воспроизводимость результатов

Низкая Высокая Средняя Высокая

Выводы


БП Окей

Вероятность идентификации

ошибки

Средняя Средняя Высокая Средняя

Лёгкость внедрения

Низкая* Высокая Высокая Высокая

Функциональность ПО

Отсутствует Отсутствует Средняя Высокая

Стартовая экономия

Высокая Высокая Низкая Средняя

Долгосрочная экономия

Низкая* Высокая Высокая Высокая

Выводы

* При условии привлечения к оценке двух проверяющих

Бюро переводов «Окей»оказывает услуги консалтинга:

•Управление качеством•Автоматизированный контроль качества (QA Tools)•Оптимизация бизнес-процессов•Управление персоналом•IT-инфраструктура•Программы памяти переводов•Translation Management Systems

tq metric compared sep2009

Technology