Морфологический анализатор pc-kimmo

19
Морфологический анализатор PC-KIMMO http://www-01.sil.org/pckimmo/

Upload: artem-lukanin

Post on 16-Jun-2015

461 views

Category:

Education


3 download

TRANSCRIPT

Page 1: Морфологический анализатор PC-KIMMO

Морфологический анализатор PC-KIMMO

http://www-01.sil.org/pckimmo/

Page 2: Морфологический анализатор PC-KIMMO

Для чего нужен автоматический морфологический разбор слов? Парсинг (синтаксический разбор) – это

стандартный метод, используемый в АОЕЯ. Но сначала каждому входящему в

предложение слову должна быть приписана определенная информация.

Чтобы разобрать предложение The cat chased the rat, анализатор должен знать, что слово cat – это существительное в ед.ч., chased – форма прошедшего времени глагола и т.д.

Page 3: Морфологический анализатор PC-KIMMO

Английский язык

Можно просто составить лексикон, в котором будут перечислены все словоформы с указанием части речи и такой информации, как число и время.

Число всех словоформ будет не столь велико.

Исчисляемые существительные имеют только 2 формы – ед. и мн.ч., а правильные глаголы имеют всего 4 формы: базовая, форма на -s, форма на -ed и форма на -ing.

Page 4: Морфологический анализатор PC-KIMMO

финский, турецкий, кечуа

практически невозможно составить лексикон

каждое существительное или глагол могут иметь сотни словоформ

нужен морфологический анализатор, который, используя морфологическую систему языка, смог бы вычислять часть речи словоформы со всеми ее категориями словоизменения

Page 5: Морфологический анализатор PC-KIMMO

Английский язык

ограниченная система словоизменения, но достаточно сложная и продуктивная система словообразования

из слова compute производятся такие слова, как computer, computerize, computerization, recomputerize, noncomputerized и т.д.

Невозможно перечислить в лексиконе все производные слова (включая неологизмы), которые могут встретиться в тексте.

Page 6: Морфологический анализатор PC-KIMMO

Двухуровневая модель морфологии Настоящий прорыв в области морфологического

разбора был сделан в 1983 году Киммо Коскеньеми, который опубликовал свою диссертацию Two-level morphology: A general computational model for word-form recognition and generation (Koskenniemi 1983)

Модель базировалась на традиционном разграничении морфотактики, которая перечисляет все возможные

морфемы и определяет, в каком порядке они могут следовать друг за другом в слове, и

морфофонемики, которая объясняет альтернативные формы морфем в соответствии с фонологическим контекстом, в котором они появляются

Page 7: Морфологический анализатор PC-KIMMO

Двухуровневая модель морфологии слово chased разбирается

морфотактически на основу chase и суффикс -ed

ясно, что конечная e выпадает из основы при добавлении суффикса -ed; таким образом, chase и chas – алломорфы или альтернативные формы одной и той же морфемы

Page 8: Морфологический анализатор PC-KIMMO

Двухуровневая модель морфологии Модель Коскеньеми двухуровневая в том

смысле, что слово представляет собой прямое побуквенное соответствие между его лексической (или глубинной) и поверхностной формами.

К примеру, слово chased представляется в этой модели следующим образом (где + это разделитель морфем, а 0 – нулевой символ):

Lexical form: c h a s e + e d Surface form: c h a s 0 0 e d

Page 9: Морфологический анализатор PC-KIMMO

Анализатор KIMMO

Лаури Картунен и др. реализовали двухуровневую модель Коскеньеми на языке LISP и назвали ее KIMMO (Karttunen 1983)

В ней было 2 аналитических компонента: компонент правил и лексический компонент, или лексикон

Компонент правил содержал двухуровневые правила, которые объясняли регулярные фонологические и орфографические чередования, такие как chase – chas

В лексиконе были перечислены все морфемы (основы и аффиксы) в их лексической форме и определены их морфотактические ограничения

Page 10: Морфологический анализатор PC-KIMMO

Анализатор KIMMO

Эти 2 компонента использовались двумя процедурами, генератором и распознавателем.

Генератор принимал на входе лексическую форму, такую как `spy+s и возвращал поверхностную форму spies.

Распознаватель принимал на входе поверхностную форму такую как spies и возвращал глубинную форму, разделенную на морфемы, в данном случае `spy+s, плюс описание, такое как N+PLURAL

Формы соотносятся по правилу преобразования:Лексическая форма: ` s p y + 0 sПоверхностная форма: 0 s p i 0 e s

Page 11: Морфологический анализатор PC-KIMMO

Анализатор KIMMO

Page 12: Морфологический анализатор PC-KIMMO

Двухуровневые правила

Нужны специальные правила для преобразования `:0, y:i, +:0 и 0:e

Правило для y:i в упрощённом виде выглядит так:

y:i => @:C___+:0 Как видно, окружающий место

преобразования ___ контекст также указан в виде двухуровневых соответствий

Т.к. двухуровневые правила имеют доступ и к глубинным и к поверхностным контекстам несколько правил могут применяться параллельно без указанного порядка

Page 13: Морфологический анализатор PC-KIMMO

Двухуровневые правила

транслируются в конечные преобразователи Например, таблица преобразования для

правила y:i => @:C___+:0 выглядит так:

|@ y + @ |C i 0 @ --+------- 1:|2 0 1 1 2:|2 3 2 1 3.|0 0 1 0

Page 14: Морфологический анализатор PC-KIMMO

Анализатор PC-KIMMO

В 1990, в Summer Institute of Linguistics создали программу PC-KIMMO version 1, реализующую двухуровневую модель как и в программе KIMMO (Antworth 1990).

Она была написана на языке C и запускалась на компьютерах IBM PC и Macintosh, а также на компьютерах под управлением операционной системы UNIX.

PC-KIMMO хорошо работала с тем, для чего создавалась – разбор слов на маркированные морфемы.

Page 15: Морфологический анализатор PC-KIMMO

Анализатор PC-KIMMO

Но у нее был один существенный недостаток: она не могла определить часть речи слова и его словоизменительные категории.

К примеру, PC-KIMMO могла разбить слово enlargements на последовательность морфем en+large+ment+s и дать описание каждой морфемы, но она не могла определить, что слово целиком представляет собой существительное во мн.ч.

Это означает, что PC-KIMMO не могла передавать результаты непосредственно в синтаксический анализатор.

Page 16: Морфологический анализатор PC-KIMMO

Унифицированная грамматика слов В 1993, появилась 2 версия программы PC-KIMMO,

которая была разработана специально, чтобы исправить недостаток предыдущей версии.

Это было сделано за счет добавления 3-го аналитического компонента, грамматики слов.

Грамматика слов – это анализатор, основанный на формализме PATR-II (Shieber 1986), который выдает деревья морфем со структурой их признаков.

Когда поверхностная форма слова подается на вход Распознавателя PC-KIMMO, правила и лексикон разбивают его на последовательность морфемных структур (или возможно несколько последовательностей, если найдено более 1 анализа слова).

Page 17: Морфологический анализатор PC-KIMMO

Унифицированная грамматика слов Морфемная структура состоит из лексической

формы, ее описания, категории и признаков. К примеру, слово enlargements раскладывается на последовательность следующих морфемных структур: Form: en+ large +ment +s

Gloss: VR1+ AJ +NR25 +PLCat: PREFIX ROOT SUFFIX INFLFeat: [fromcat: AJ [lexcat: AJ [fromcat: V [fromcat: N

tocat: V aform: !POS] tocat: N tocat: N finite: !-] number: !SG] number: SG

reg: +]

Page 18: Морфологический анализатор PC-KIMMO

Унифицированная грамматика слов Данный анализ передается дальше грамматике слов, которая в

свою очередь возвращает дерево разбора со структурой признаков: Word

______|_______ Stem INFL _____|______ +s Stem SUFFIX +PL ___|____ +mentPREFIX Stem +NR25en+ |VR1+ ROOT `large AJ

Word: [ lexcat: N number: PL ]

Page 19: Морфологический анализатор PC-KIMMO

Унифицированная грамматика слов В то время как каждый узел дерева имеет

структуру признаков данной морфемы, структура признаков самого верхнего узла является самой важной, так как она показывает признаки целого слова.

Структура признаков слова enlargements определяет 2 признака.

Первый признак lexcat имеет значение N, означающий, что лексическая категория (часть речи) слова – существительное.

Второй признак number имеет значение PL – мн.ч.