introduction to machine translation
DESCRIPTION
TRANSCRIPT
СПбГУ, ПМ-ПУ, ТП, 2009
Введение в машинныйперевод
Лектор: Кан Дмитрий АлександровичIII курс аспирантуры, СПбГУ, ПМ-ПУ, ТП
СПбГУ, ПМ-ПУ, ТП, 2009
Темы
Для чего нужен машинный перевод(МП)История МПЧто происходит сейчасСтатистический и традиционныйподходыМетоды оценки систем МП
СПбГУ, ПМ-ПУ, ТП, 2009
Тема
Для чего нужен машинный переводИстория МПЧто происходит сейчасСтатистический и традиционныйподходыМетоды оценки систем МП
СПбГУ, ПМ-ПУ, ТП, 2009
Для чего нужен машинныйперевод #1
Перевод: объявлений при поиске квартиры;рецептов блюд; сайтовИзучение языковПоиск в Интернете на разных языках(внутри поисковых алгоритмов идополнительная функция для пользователя[9])Перевод научных публикацийПубликация статей (!) [5]
СПбГУ, ПМ-ПУ, ТП, 2009
Тема
Для чего нужен машинный переводИстория МПЧто происходит сейчасСтатистический и традиционныйподходыМетоды оценки систем МП
СПбГУ, ПМ-ПУ, ТП, 2009
История МП #1
Одновременное независимоепатентование МП (1933): ПётрСмирнов-Троянский (более серьёзноеисследование) [3] и Джордж Артсруни(Georges Artsrouni) (отец МП) [4]
СПбГУ, ПМ-ПУ, ТП, 2009
История МП #2
Вторая мировая война:Электронный компьютер (обсчётбаллистических выстрелов в США, взлом кодов, code breaking, в Британии)Алан Тьюринг: нечисловые программы, такиекак машинный перевод1949, Вивер (Weaver): обсуждение МП с 200 коллегами (однако идея использовать code-breaking себя не зарекомендовала)
СПбГУ, ПМ-ПУ, ТП, 2009
История МП #3: direct МП
Вивер своими (неверными) идеямистимулировал дальнейшие исследования вмашинном переводе1952: первая конференция по МП (MIT, ИнститутТехнологии Массачусетса, США)1954: демонстрация первой системы МП дляпары русский<->английский, слово-в-словоВ 1960е МП стимулирован Холодной Войной: США, Британия, Франция, Япония и СССР
СПбГУ, ПМ-ПУ, ТП, 2009
История МП: диаграмма
Figure 1: Informal graph showing the history of MT; also shown are the five ‘Eras of MT History’ identified by Hutchins (1993:27ff.) [1]
СПбГУ, ПМ-ПУ, ТП, 2009
История МП #4: indirect МП
Концепция interlingua (transfer architecture=анализ,трансфер,синтез)‘real-world knowledge’ (Bar-Hillel 1960) -> высококачественный МП1966-1976: системы МП второго поколения, вовлекающие лингвистику и численные методы(в основном U.S.)Появились: MÉTÉOTM (1976, Montreal [11]), SYSTRAN (конец 1950х, California), EUROTRA (1982-1993, замена SYSTRAN)
СПбГУ, ПМ-ПУ, ТП, 2009
Тема
Для чего нужен машинный переводИстория МПЧто происходит сейчасСтатистический и традиционныйподходыМетоды оценки систем МП
СПбГУ, ПМ-ПУ, ТП, 2009
Что происходит сейчас #1
But the ambition is to produce reams of paperthat could one day power a car.
Google Translate Beta (Статистическийподход, США, 1е место на NIST [10], 2005):Но амбиция заключается в том, чтобыпроизводить пачек бумаги, которые могли бы один день мощностьавтомобиля.
СПбГУ, ПМ-ПУ, ТП, 2009
Что происходит сейчас #2
But the ambition is to produce reams of paper that could one day power a car.
PROMT Translator (Традиционныйподход, Россия, год основания: 1991)Но амбиция состоит в том, чтобыпроизвести стопки бумаг, которыемогли однажды привести автомобильв действие.
СПбГУ, ПМ-ПУ, ТП, 2009
Что происходит сейчас #2
But the ambition is to produce reams of paper that could one day power a car.
Systran (Традиционный подход, Франция, год основания: 1968)Но гонор произвести reams бумагикоторые смогли дн сила автомобиль.
СПбГУ, ПМ-ПУ, ТП, 2009
MP и NLP пакеты
Moses: статистический МП, C++, Open sourceSRILM [12]: моделированиеестественного языка, C++, Open source
СПбГУ, ПМ-ПУ, ТП, 2009
Тема
Для чего нужен машинный переводИстория МПЧто происходит сейчасСтатистический и традиционныйподходыМетоды оценки систем МП
СПбГУ, ПМ-ПУ, ТП, 2009
Статистический и традиционныйподходы
Altavista's BabelFish, 2000 ~ 1,000,000 / daySoftissimo’s Reverso, 2001 ~ several millionsAltavista & Google, 2003 ~ 10,000,000 / day
СПбГУ, ПМ-ПУ, ТП, 2009
Методы машинного перевода
MT
Rule-Based MT Data-Driven MT
Transfer Interlingua EBMT SMT(Example based MT)
СПбГУ, ПМ-ПУ, ТП, 2009
Классика
Interlingua
Анализ Transfer Порождение
$_source Direct $_target
СПбГУ, ПМ-ПУ, ТП, 2009
Классика: детали
СПбГУ, ПМ-ПУ, ТП, 2009
Direct MT system
СПбГУ, ПМ-ПУ, ТП, 2009
Характеристики:
Нет сложных лингвистических теорийНет стратегии парсингаИспользование синтаксической, семантической и лексической похожестимежду двумя языкамиБазируется на одной языковой паре«Надёжны»: могут переводить даженеполные предложенияСловари – наиболее важный компонент
СПбГУ, ПМ-ПУ, ТП, 2009
Transfer
Анализ: морфология и синтаксисВыделение важных для переводачастей абстракцииSource abstraction -> target abstractionTarget abstraction -> синтез
СПбГУ, ПМ-ПУ, ТП, 2009
Transfer types
Синтаксический трансфер: передачасинтаксических структур междуязыками (одной семьи)Глубокий (семантический) трансфер: семантическое представление, зависимое от языка
СПбГУ, ПМ-ПУ, ТП, 2009
Характеристики:
Содержат завершённыелингвистические концепцииКомпоненты анализа и порождениямогут быть использованы для другихязыковых пар, если компонентыизолированыСловари также представляютотдельные компоненты
СПбГУ, ПМ-ПУ, ТП, 2009
Interlingua: пример
СПбГУ, ПМ-ПУ, ТП, 2009
Характеристики:
Абстрактное представление, независимое от языкаO(N) – построение системы для N языков vs O(N2) в transfer methodsМожет быть сложен для построенияпри широком охвате тем => узкаятема, много языков
СПбГУ, ПМ-ПУ, ТП, 2009
Interlingua vs Transfer
СПбГУ, ПМ-ПУ, ТП, 2009
Статистические подходы
СПбГУ, ПМ-ПУ, ТП, 2009
Статистический подход
3 компонента:Языковая модель p(e)Модель перевода p(f|e)Декодер
СПбГУ, ПМ-ПУ, ТП, 2009
EBMT
Необходимость в двуязычномвыровненном корпусеВероятности в переводыУстановить переводные эквивалентыПерераспределить чтобы получитьперевод
СПбГУ, ПМ-ПУ, ТП, 2009
EBMT
Английский Японский :How much is that red umbrella? Anoakai kasa wa ikura desu ka.How much is that small camera? Anochiisai kamera wa ikura desu ka.
СПбГУ, ПМ-ПУ, ТП, 2009
EBMT#1
Соответствие предложений:The man swims ⇔ L’homme nage.The woman laughs ⇔ La femme ritСоответствие частей предложений
the man ⇔ L’homme, swims ⇔ nage, the ⇔ l’, man ⇔ homme, the ⇔ la, woman ⇔ femme, laughs ⇔ rit ...
СПбГУ, ПМ-ПУ, ТП, 2009
SMT in a nutshell
Максимизироватьp(e|f), e – предложение перевода, f –предложение оригинала
Теорема Байеса:
p e f p e p f ep f
1
СПбГУ, ПМ-ПУ, ТП, 2009
Байес
e argmaxe
p e f1
e argmaxe
p e p f e
СПбГУ, ПМ-ПУ, ТП, 2009
Вероятности: расшифровка
p(e) – Языковая модель, которая:Назначает наибольшую вероятностьбеглым, грамматически вернымпредложениямВычисляется по одноязычному корпусу
p(f|e) – Модель переводаНазначает наибольшую вероятностьпарам предложений с одним значениемВычисляется по двуязычному корпусу
СПбГУ, ПМ-ПУ, ТП, 2009
Диаграмма для тех, кто не любитформулы
СПбГУ, ПМ-ПУ, ТП, 2009
Языковая модель
Правильный порядок словНекоторые идеи грамматикиВычисляется с помощью триграм (обэтом позднее, не засыпайте)Может быть вычислена с помощьюстатистической грамматики, напр. PCFG
СПбГУ, ПМ-ПУ, ТП, 2009
Триграммная языковая модель
СПбГУ, ПМ-ПУ, ТП, 2009
Вычисление языковой модели
Однограммные вероятности
СПбГУ, ПМ-ПУ, ТП, 2009
Вычисление языковой модели
Двуграммные вероятности
СПбГУ, ПМ-ПУ, ТП, 2009
Вычисление языковой модели
Триграммные вероятности
СПбГУ, ПМ-ПУ, ТП, 2009
Visualization
He argues, she loves
СПбГУ, ПМ-ПУ, ТП, 2009
Вычисление языковой модели
Можно увеличивать порядок «n-граммности» бесконечно долгоЧем больше n, тем ниже вероятностьтого, что мы когда уже встречалитакую последовательность
СПбГУ, ПМ-ПУ, ТП, 2009
Backing off
Что если последовательность невстречалась в модели? Вероятность 0Так как мы умножаем по теоремеБайеса, то итоговая вероятностьпредложения 0Что делать? См. след. слайд
СПбГУ, ПМ-ПУ, ТП, 2009
Backing off
.8*p(w3|w1w2) + .15*p(w3|w2) +
.049*p(w3)+0.001
СПбГУ, ПМ-ПУ, ТП, 2009
Модель перевода
p(f|e) – вероятность некоторой строки(предложения) из f, при гипотезе переводаиз eФормула:
Так как все предложения из e новые, то этососчитать нельзя
СПбГУ, ПМ-ПУ, ТП, 2009
Модель перевода
Разделить предложение на меньшиечасти, как при моделировании языкаВвести новую переменную a, представляющую выравниваниямежду отдельными словами в парепредложений
СПбГУ, ПМ-ПУ, ТП, 2009
Модель перевода
f = Ces gens ont grandi, vécu et oeuvrédes dizaines d’années dans le domaineagricole.Those people have grown up, lived and worked many years in a farming district
СПбГУ, ПМ-ПУ, ТП, 2009
Выравнивание слов
СПбГУ, ПМ-ПУ, ТП, 2009
Характеристики SMT
Основа – параллельный корпусВероятности назначаются подсчётомсмежных пар переводовОценки вероятностей тем точнее, чембольше корпус (и чем онкачественней)
СПбГУ, ПМ-ПУ, ТП, 2009
Характеристики SMT
Зависит от языкаПрименяем к любой паре языков, длякоторых есть || параллельный корпусНужна ! лингвистическая информация: как делить текст на предложения и насловаНе нужны лингвисты для полученияправил: всё это получается из данных
СПбГУ, ПМ-ПУ, ТП, 2009
Характеристики SMT
Дёшево и быстроКомпьютеры делают всю тяжёлуюработуСистема перевода может бытьпостроена примерно за 2 недели
СПбГУ, ПМ-ПУ, ТП, 2009
Материалы для построения SMT
|| корпусПО для выравнивания словИнструментарий для моделированияязыкаДекодер
СПбГУ, ПМ-ПУ, ТП, 2009
|| корпус
http://www.ldc.upenn.edu/UMC корпус: чешский, русский, английский (попарно)Европейский парламентcrawling
СПбГУ, ПМ-ПУ, ТП, 2009
ПО для выравнивания слов
GIZA++http://www.fjoch.com/GIZA++.htmlУдобные скрипты в составе пакетаMoses
СПбГУ, ПМ-ПУ, ТП, 2009
Инструментарий моделированияязыка
SRILMРазработан для распознавания речиПрименяется также в SMTВычисляет вероятности n-граммСложные метода для back off
http://www.speech.sri.com/projects/srilm/
СПбГУ, ПМ-ПУ, ТП, 2009
Декодер
PharaohSMT декодер на основе фразовыхмоделейСтроит фразовые таблицы повыравниваниям GIZA++Перевод по фразовой таблице и SRILM-модели языка
http://www.isi.edu/licensed-sw/pharaoh/
СПбГУ, ПМ-ПУ, ТП, 2009
Библиография
[1] Mona Baker, Routlege Encyclopedia of Translation Studies, 2001, ISBN 0-203-35979-8[2] Р. Г. Пиотровский: Автоматизация обработки текста, ВИНИТИ, ИНФОРМ. ПРОЦЕССЫ И СИСТЕМЫ, 1998, №5[3] http://www.hutchinsweb.me.uk/MTJ-2000.pdf[4] http://www.hutchinsweb.me.uk/IJT-2004.pdf[5] http://www.scientific.ru/trv/2008/013/ostap_bender.html[6] Natural Language Processing, Instructor: Manning, Christopher D., Stanford School of Engineering[7] http://translate.google.com[8] http://www.translate.ru/text_Translation.aspx[9] http://www.google.ru/language_tools[10] http://www.nist.gov/speech/tests/mt/(cont’d)
2005/doc/mt05eval_official_results_release_(cont’d)20050801_v3.html
[11] http://www.hutchinsweb.me.uk/IntroMT-12.pdf[12] http://www.speech.sri.com/
СПбГУ, ПМ-ПУ, ТП, 2009
Библиография
[13] ALPAC report http://www.nap.edu/openbook.php?record_id=9547&page=R1[14] Andy Way: Web-based Machine Translation, School of Computing[15] http://en.wikipedia.org/wiki/[16] Chris Callison-Burch, Philipp Koehn: Introduction to Statistical Machine Translation, ESSLLI 2005[17] Heshaam Faili: Chapter 21: Machine Translation, University of Tehran[18] http://www.chrisharrison.net/projects/trigramviz/index.html