introduction to machine translation

60
СПбГУ, ПМ-ПУ, ТП, 2009 Введение в машинный перевод Лектор: Кан Дмитрий Александрович III курс аспирантуры, СПбГУ, ПМ-ПУ, ТП

Upload: dmitry-kan

Post on 28-Nov-2014

1.745 views

Category:

Technology


3 download

DESCRIPTION

 

TRANSCRIPT

Page 1: Introduction To Machine Translation

СПбГУ, ПМ-ПУ, ТП, 2009

Введение в машинныйперевод

Лектор: Кан Дмитрий АлександровичIII курс аспирантуры, СПбГУ, ПМ-ПУ, ТП

Page 2: Introduction To Machine Translation

СПбГУ, ПМ-ПУ, ТП, 2009

Темы

Для чего нужен машинный перевод(МП)История МПЧто происходит сейчасСтатистический и традиционныйподходыМетоды оценки систем МП

Page 3: Introduction To Machine Translation

СПбГУ, ПМ-ПУ, ТП, 2009

Тема

Для чего нужен машинный переводИстория МПЧто происходит сейчасСтатистический и традиционныйподходыМетоды оценки систем МП

Page 4: Introduction To Machine Translation

СПбГУ, ПМ-ПУ, ТП, 2009

Для чего нужен машинныйперевод #1

Перевод: объявлений при поиске квартиры;рецептов блюд; сайтовИзучение языковПоиск в Интернете на разных языках(внутри поисковых алгоритмов идополнительная функция для пользователя[9])Перевод научных публикацийПубликация статей (!) [5]

Page 5: Introduction To Machine Translation

СПбГУ, ПМ-ПУ, ТП, 2009

Тема

Для чего нужен машинный переводИстория МПЧто происходит сейчасСтатистический и традиционныйподходыМетоды оценки систем МП

Page 6: Introduction To Machine Translation

СПбГУ, ПМ-ПУ, ТП, 2009

История МП #1

Одновременное независимоепатентование МП (1933): ПётрСмирнов-Троянский (более серьёзноеисследование) [3] и Джордж Артсруни(Georges Artsrouni) (отец МП) [4]

Page 7: Introduction To Machine Translation

СПбГУ, ПМ-ПУ, ТП, 2009

История МП #2

Вторая мировая война:Электронный компьютер (обсчётбаллистических выстрелов в США, взлом кодов, code breaking, в Британии)Алан Тьюринг: нечисловые программы, такиекак машинный перевод1949, Вивер (Weaver): обсуждение МП с 200 коллегами (однако идея использовать code-breaking себя не зарекомендовала)

Page 8: Introduction To Machine Translation

СПбГУ, ПМ-ПУ, ТП, 2009

История МП #3: direct МП

Вивер своими (неверными) идеямистимулировал дальнейшие исследования вмашинном переводе1952: первая конференция по МП (MIT, ИнститутТехнологии Массачусетса, США)1954: демонстрация первой системы МП дляпары русский<->английский, слово-в-словоВ 1960е МП стимулирован Холодной Войной: США, Британия, Франция, Япония и СССР

Page 9: Introduction To Machine Translation

СПбГУ, ПМ-ПУ, ТП, 2009

История МП: диаграмма

Figure 1: Informal graph showing the history of MT; also shown are the five ‘Eras of MT History’ identified by Hutchins (1993:27ff.) [1]

Page 10: Introduction To Machine Translation

СПбГУ, ПМ-ПУ, ТП, 2009

История МП #4: indirect МП

Концепция interlingua (transfer architecture=анализ,трансфер,синтез)‘real-world knowledge’ (Bar-Hillel 1960) -> высококачественный МП1966-1976: системы МП второго поколения, вовлекающие лингвистику и численные методы(в основном U.S.)Появились: MÉTÉOTM (1976, Montreal [11]), SYSTRAN (конец 1950х, California), EUROTRA (1982-1993, замена SYSTRAN)

Page 11: Introduction To Machine Translation

СПбГУ, ПМ-ПУ, ТП, 2009

Тема

Для чего нужен машинный переводИстория МПЧто происходит сейчасСтатистический и традиционныйподходыМетоды оценки систем МП

Page 12: Introduction To Machine Translation

СПбГУ, ПМ-ПУ, ТП, 2009

Что происходит сейчас #1

But the ambition is to produce reams of paperthat could one day power a car.

Google Translate Beta (Статистическийподход, США, 1е место на NIST [10], 2005):Но амбиция заключается в том, чтобыпроизводить пачек бумаги, которые могли бы один день мощностьавтомобиля.

Page 13: Introduction To Machine Translation

СПбГУ, ПМ-ПУ, ТП, 2009

Что происходит сейчас #2

But the ambition is to produce reams of paper that could one day power a car.

PROMT Translator (Традиционныйподход, Россия, год основания: 1991)Но амбиция состоит в том, чтобыпроизвести стопки бумаг, которыемогли однажды привести автомобильв действие.

Page 14: Introduction To Machine Translation

СПбГУ, ПМ-ПУ, ТП, 2009

Что происходит сейчас #2

But the ambition is to produce reams of paper that could one day power a car.

Systran (Традиционный подход, Франция, год основания: 1968)Но гонор произвести reams бумагикоторые смогли дн сила автомобиль.

Page 15: Introduction To Machine Translation

СПбГУ, ПМ-ПУ, ТП, 2009

MP и NLP пакеты

Moses: статистический МП, C++, Open sourceSRILM [12]: моделированиеестественного языка, C++, Open source

Page 16: Introduction To Machine Translation

СПбГУ, ПМ-ПУ, ТП, 2009

Тема

Для чего нужен машинный переводИстория МПЧто происходит сейчасСтатистический и традиционныйподходыМетоды оценки систем МП

Page 17: Introduction To Machine Translation

СПбГУ, ПМ-ПУ, ТП, 2009

Статистический и традиционныйподходы

Altavista's BabelFish, 2000 ~ 1,000,000 / daySoftissimo’s Reverso, 2001 ~ several millionsAltavista & Google, 2003 ~ 10,000,000 / day

Page 18: Introduction To Machine Translation

СПбГУ, ПМ-ПУ, ТП, 2009

Методы машинного перевода

MT

Rule-Based MT Data-Driven MT

Transfer Interlingua EBMT SMT(Example based MT)

Page 19: Introduction To Machine Translation

СПбГУ, ПМ-ПУ, ТП, 2009

Классика

Interlingua

Анализ Transfer Порождение

$_source Direct $_target

Page 20: Introduction To Machine Translation

СПбГУ, ПМ-ПУ, ТП, 2009

Классика: детали

Page 21: Introduction To Machine Translation

СПбГУ, ПМ-ПУ, ТП, 2009

Direct MT system

Page 22: Introduction To Machine Translation

СПбГУ, ПМ-ПУ, ТП, 2009

Характеристики:

Нет сложных лингвистических теорийНет стратегии парсингаИспользование синтаксической, семантической и лексической похожестимежду двумя языкамиБазируется на одной языковой паре«Надёжны»: могут переводить даженеполные предложенияСловари – наиболее важный компонент

Page 23: Introduction To Machine Translation

СПбГУ, ПМ-ПУ, ТП, 2009

Transfer

Анализ: морфология и синтаксисВыделение важных для переводачастей абстракцииSource abstraction -> target abstractionTarget abstraction -> синтез

Page 24: Introduction To Machine Translation

СПбГУ, ПМ-ПУ, ТП, 2009

Transfer types

Синтаксический трансфер: передачасинтаксических структур междуязыками (одной семьи)Глубокий (семантический) трансфер: семантическое представление, зависимое от языка

Page 25: Introduction To Machine Translation

СПбГУ, ПМ-ПУ, ТП, 2009

Характеристики:

Содержат завершённыелингвистические концепцииКомпоненты анализа и порождениямогут быть использованы для другихязыковых пар, если компонентыизолированыСловари также представляютотдельные компоненты

Page 26: Introduction To Machine Translation

СПбГУ, ПМ-ПУ, ТП, 2009

Interlingua: пример

Page 27: Introduction To Machine Translation

СПбГУ, ПМ-ПУ, ТП, 2009

Характеристики:

Абстрактное представление, независимое от языкаO(N) – построение системы для N языков vs O(N2) в transfer methodsМожет быть сложен для построенияпри широком охвате тем => узкаятема, много языков

Page 28: Introduction To Machine Translation

СПбГУ, ПМ-ПУ, ТП, 2009

Interlingua vs Transfer

Page 29: Introduction To Machine Translation

СПбГУ, ПМ-ПУ, ТП, 2009

Статистические подходы

Page 30: Introduction To Machine Translation

СПбГУ, ПМ-ПУ, ТП, 2009

Статистический подход

3 компонента:Языковая модель p(e)Модель перевода p(f|e)Декодер

Page 31: Introduction To Machine Translation

СПбГУ, ПМ-ПУ, ТП, 2009

EBMT

Необходимость в двуязычномвыровненном корпусеВероятности в переводыУстановить переводные эквивалентыПерераспределить чтобы получитьперевод

Page 32: Introduction To Machine Translation

СПбГУ, ПМ-ПУ, ТП, 2009

EBMT

Английский Японский :How much is that red umbrella? Anoakai kasa wa ikura desu ka.How much is that small camera? Anochiisai kamera wa ikura desu ka.

Page 33: Introduction To Machine Translation

СПбГУ, ПМ-ПУ, ТП, 2009

EBMT#1

Соответствие предложений:The man swims ⇔ L’homme nage.The woman laughs ⇔ La femme ritСоответствие частей предложений

the man ⇔ L’homme, swims ⇔ nage, the ⇔ l’, man ⇔ homme, the ⇔ la, woman ⇔ femme, laughs ⇔ rit ...

Page 34: Introduction To Machine Translation

СПбГУ, ПМ-ПУ, ТП, 2009

SMT in a nutshell

Максимизироватьp(e|f), e – предложение перевода, f –предложение оригинала

Теорема Байеса:

p e f p e p f ep f

1

Page 35: Introduction To Machine Translation

СПбГУ, ПМ-ПУ, ТП, 2009

Байес

e argmaxe

p e f1

e argmaxe

p e p f e

Page 36: Introduction To Machine Translation

СПбГУ, ПМ-ПУ, ТП, 2009

Вероятности: расшифровка

p(e) – Языковая модель, которая:Назначает наибольшую вероятностьбеглым, грамматически вернымпредложениямВычисляется по одноязычному корпусу

p(f|e) – Модель переводаНазначает наибольшую вероятностьпарам предложений с одним значениемВычисляется по двуязычному корпусу

Page 37: Introduction To Machine Translation

СПбГУ, ПМ-ПУ, ТП, 2009

Диаграмма для тех, кто не любитформулы

Page 38: Introduction To Machine Translation

СПбГУ, ПМ-ПУ, ТП, 2009

Языковая модель

Правильный порядок словНекоторые идеи грамматикиВычисляется с помощью триграм (обэтом позднее, не засыпайте)Может быть вычислена с помощьюстатистической грамматики, напр. PCFG

Page 39: Introduction To Machine Translation

СПбГУ, ПМ-ПУ, ТП, 2009

Триграммная языковая модель

Page 40: Introduction To Machine Translation

СПбГУ, ПМ-ПУ, ТП, 2009

Вычисление языковой модели

Однограммные вероятности

Page 41: Introduction To Machine Translation

СПбГУ, ПМ-ПУ, ТП, 2009

Вычисление языковой модели

Двуграммные вероятности

Page 42: Introduction To Machine Translation

СПбГУ, ПМ-ПУ, ТП, 2009

Вычисление языковой модели

Триграммные вероятности

Page 43: Introduction To Machine Translation

СПбГУ, ПМ-ПУ, ТП, 2009

Visualization

He argues, she loves

Page 44: Introduction To Machine Translation

СПбГУ, ПМ-ПУ, ТП, 2009

Вычисление языковой модели

Можно увеличивать порядок «n-граммности» бесконечно долгоЧем больше n, тем ниже вероятностьтого, что мы когда уже встречалитакую последовательность

Page 45: Introduction To Machine Translation

СПбГУ, ПМ-ПУ, ТП, 2009

Backing off

Что если последовательность невстречалась в модели? Вероятность 0Так как мы умножаем по теоремеБайеса, то итоговая вероятностьпредложения 0Что делать? См. след. слайд

Page 46: Introduction To Machine Translation

СПбГУ, ПМ-ПУ, ТП, 2009

Backing off

.8*p(w3|w1w2) + .15*p(w3|w2) +

.049*p(w3)+0.001

Page 47: Introduction To Machine Translation

СПбГУ, ПМ-ПУ, ТП, 2009

Модель перевода

p(f|e) – вероятность некоторой строки(предложения) из f, при гипотезе переводаиз eФормула:

Так как все предложения из e новые, то этососчитать нельзя

Page 48: Introduction To Machine Translation

СПбГУ, ПМ-ПУ, ТП, 2009

Модель перевода

Разделить предложение на меньшиечасти, как при моделировании языкаВвести новую переменную a, представляющую выравниваниямежду отдельными словами в парепредложений

Page 49: Introduction To Machine Translation

СПбГУ, ПМ-ПУ, ТП, 2009

Модель перевода

f = Ces gens ont grandi, vécu et oeuvrédes dizaines d’années dans le domaineagricole.Those people have grown up, lived and worked many years in a farming district

Page 50: Introduction To Machine Translation

СПбГУ, ПМ-ПУ, ТП, 2009

Выравнивание слов

Page 51: Introduction To Machine Translation

СПбГУ, ПМ-ПУ, ТП, 2009

Характеристики SMT

Основа – параллельный корпусВероятности назначаются подсчётомсмежных пар переводовОценки вероятностей тем точнее, чембольше корпус (и чем онкачественней)

Page 52: Introduction To Machine Translation

СПбГУ, ПМ-ПУ, ТП, 2009

Характеристики SMT

Зависит от языкаПрименяем к любой паре языков, длякоторых есть || параллельный корпусНужна ! лингвистическая информация: как делить текст на предложения и насловаНе нужны лингвисты для полученияправил: всё это получается из данных

Page 53: Introduction To Machine Translation

СПбГУ, ПМ-ПУ, ТП, 2009

Характеристики SMT

Дёшево и быстроКомпьютеры делают всю тяжёлуюработуСистема перевода может бытьпостроена примерно за 2 недели

Page 54: Introduction To Machine Translation

СПбГУ, ПМ-ПУ, ТП, 2009

Материалы для построения SMT

|| корпусПО для выравнивания словИнструментарий для моделированияязыкаДекодер

Page 55: Introduction To Machine Translation

СПбГУ, ПМ-ПУ, ТП, 2009

|| корпус

http://www.ldc.upenn.edu/UMC корпус: чешский, русский, английский (попарно)Европейский парламентcrawling

Page 56: Introduction To Machine Translation

СПбГУ, ПМ-ПУ, ТП, 2009

ПО для выравнивания слов

GIZA++http://www.fjoch.com/GIZA++.htmlУдобные скрипты в составе пакетаMoses

Page 57: Introduction To Machine Translation

СПбГУ, ПМ-ПУ, ТП, 2009

Инструментарий моделированияязыка

SRILMРазработан для распознавания речиПрименяется также в SMTВычисляет вероятности n-граммСложные метода для back off

http://www.speech.sri.com/projects/srilm/

Page 58: Introduction To Machine Translation

СПбГУ, ПМ-ПУ, ТП, 2009

Декодер

PharaohSMT декодер на основе фразовыхмоделейСтроит фразовые таблицы повыравниваниям GIZA++Перевод по фразовой таблице и SRILM-модели языка

http://www.isi.edu/licensed-sw/pharaoh/

Page 59: Introduction To Machine Translation

СПбГУ, ПМ-ПУ, ТП, 2009

Библиография

[1] Mona Baker, Routlege Encyclopedia of Translation Studies, 2001, ISBN 0-203-35979-8[2] Р. Г. Пиотровский: Автоматизация обработки текста, ВИНИТИ, ИНФОРМ. ПРОЦЕССЫ И СИСТЕМЫ, 1998, №5[3] http://www.hutchinsweb.me.uk/MTJ-2000.pdf[4] http://www.hutchinsweb.me.uk/IJT-2004.pdf[5] http://www.scientific.ru/trv/2008/013/ostap_bender.html[6] Natural Language Processing, Instructor: Manning, Christopher D., Stanford School of Engineering[7] http://translate.google.com[8] http://www.translate.ru/text_Translation.aspx[9] http://www.google.ru/language_tools[10] http://www.nist.gov/speech/tests/mt/(cont’d)

2005/doc/mt05eval_official_results_release_(cont’d)20050801_v3.html

[11] http://www.hutchinsweb.me.uk/IntroMT-12.pdf[12] http://www.speech.sri.com/

Page 60: Introduction To Machine Translation

СПбГУ, ПМ-ПУ, ТП, 2009

Библиография

[13] ALPAC report http://www.nap.edu/openbook.php?record_id=9547&page=R1[14] Andy Way: Web-based Machine Translation, School of Computing[15] http://en.wikipedia.org/wiki/[16] Chris Callison-Burch, Philipp Koehn: Introduction to Statistical Machine Translation, ESSLLI 2005[17] Heshaam Faili: Chapter 21: Machine Translation, University of Tehran[18] http://www.chrisharrison.net/projects/trigramviz/index.html