Морфологический анализатор pc-kimmo
TRANSCRIPT
Морфологический анализатор PC-KIMMO
http://www-01.sil.org/pckimmo/
Для чего нужен автоматический морфологический разбор слов? Парсинг (синтаксический разбор) – это
стандартный метод, используемый в АОЕЯ. Но сначала каждому входящему в
предложение слову должна быть приписана определенная информация.
Чтобы разобрать предложение The cat chased the rat, анализатор должен знать, что слово cat – это существительное в ед.ч., chased – форма прошедшего времени глагола и т.д.
Английский язык
Можно просто составить лексикон, в котором будут перечислены все словоформы с указанием части речи и такой информации, как число и время.
Число всех словоформ будет не столь велико.
Исчисляемые существительные имеют только 2 формы – ед. и мн.ч., а правильные глаголы имеют всего 4 формы: базовая, форма на -s, форма на -ed и форма на -ing.
финский, турецкий, кечуа
практически невозможно составить лексикон
каждое существительное или глагол могут иметь сотни словоформ
нужен морфологический анализатор, который, используя морфологическую систему языка, смог бы вычислять часть речи словоформы со всеми ее категориями словоизменения
Английский язык
ограниченная система словоизменения, но достаточно сложная и продуктивная система словообразования
из слова compute производятся такие слова, как computer, computerize, computerization, recomputerize, noncomputerized и т.д.
Невозможно перечислить в лексиконе все производные слова (включая неологизмы), которые могут встретиться в тексте.
Двухуровневая модель морфологии Настоящий прорыв в области морфологического
разбора был сделан в 1983 году Киммо Коскеньеми, который опубликовал свою диссертацию Two-level morphology: A general computational model for word-form recognition and generation (Koskenniemi 1983)
Модель базировалась на традиционном разграничении морфотактики, которая перечисляет все возможные
морфемы и определяет, в каком порядке они могут следовать друг за другом в слове, и
морфофонемики, которая объясняет альтернативные формы морфем в соответствии с фонологическим контекстом, в котором они появляются
Двухуровневая модель морфологии слово chased разбирается
морфотактически на основу chase и суффикс -ed
ясно, что конечная e выпадает из основы при добавлении суффикса -ed; таким образом, chase и chas – алломорфы или альтернативные формы одной и той же морфемы
Двухуровневая модель морфологии Модель Коскеньеми двухуровневая в том
смысле, что слово представляет собой прямое побуквенное соответствие между его лексической (или глубинной) и поверхностной формами.
К примеру, слово chased представляется в этой модели следующим образом (где + это разделитель морфем, а 0 – нулевой символ):
Lexical form: c h a s e + e d Surface form: c h a s 0 0 e d
Анализатор KIMMO
Лаури Картунен и др. реализовали двухуровневую модель Коскеньеми на языке LISP и назвали ее KIMMO (Karttunen 1983)
В ней было 2 аналитических компонента: компонент правил и лексический компонент, или лексикон
Компонент правил содержал двухуровневые правила, которые объясняли регулярные фонологические и орфографические чередования, такие как chase – chas
В лексиконе были перечислены все морфемы (основы и аффиксы) в их лексической форме и определены их морфотактические ограничения
Анализатор KIMMO
Эти 2 компонента использовались двумя процедурами, генератором и распознавателем.
Генератор принимал на входе лексическую форму, такую как `spy+s и возвращал поверхностную форму spies.
Распознаватель принимал на входе поверхностную форму такую как spies и возвращал глубинную форму, разделенную на морфемы, в данном случае `spy+s, плюс описание, такое как N+PLURAL
Формы соотносятся по правилу преобразования:Лексическая форма: ` s p y + 0 sПоверхностная форма: 0 s p i 0 e s
Анализатор KIMMO
Двухуровневые правила
Нужны специальные правила для преобразования `:0, y:i, +:0 и 0:e
Правило для y:i в упрощённом виде выглядит так:
y:i => @:C___+:0 Как видно, окружающий место
преобразования ___ контекст также указан в виде двухуровневых соответствий
Т.к. двухуровневые правила имеют доступ и к глубинным и к поверхностным контекстам несколько правил могут применяться параллельно без указанного порядка
Двухуровневые правила
транслируются в конечные преобразователи Например, таблица преобразования для
правила y:i => @:C___+:0 выглядит так:
|@ y + @ |C i 0 @ --+------- 1:|2 0 1 1 2:|2 3 2 1 3.|0 0 1 0
Анализатор PC-KIMMO
В 1990, в Summer Institute of Linguistics создали программу PC-KIMMO version 1, реализующую двухуровневую модель как и в программе KIMMO (Antworth 1990).
Она была написана на языке C и запускалась на компьютерах IBM PC и Macintosh, а также на компьютерах под управлением операционной системы UNIX.
PC-KIMMO хорошо работала с тем, для чего создавалась – разбор слов на маркированные морфемы.
Анализатор PC-KIMMO
Но у нее был один существенный недостаток: она не могла определить часть речи слова и его словоизменительные категории.
К примеру, PC-KIMMO могла разбить слово enlargements на последовательность морфем en+large+ment+s и дать описание каждой морфемы, но она не могла определить, что слово целиком представляет собой существительное во мн.ч.
Это означает, что PC-KIMMO не могла передавать результаты непосредственно в синтаксический анализатор.
Унифицированная грамматика слов В 1993, появилась 2 версия программы PC-KIMMO,
которая была разработана специально, чтобы исправить недостаток предыдущей версии.
Это было сделано за счет добавления 3-го аналитического компонента, грамматики слов.
Грамматика слов – это анализатор, основанный на формализме PATR-II (Shieber 1986), который выдает деревья морфем со структурой их признаков.
Когда поверхностная форма слова подается на вход Распознавателя PC-KIMMO, правила и лексикон разбивают его на последовательность морфемных структур (или возможно несколько последовательностей, если найдено более 1 анализа слова).
Унифицированная грамматика слов Морфемная структура состоит из лексической
формы, ее описания, категории и признаков. К примеру, слово enlargements раскладывается на последовательность следующих морфемных структур: Form: en+ large +ment +s
Gloss: VR1+ AJ +NR25 +PLCat: PREFIX ROOT SUFFIX INFLFeat: [fromcat: AJ [lexcat: AJ [fromcat: V [fromcat: N
tocat: V aform: !POS] tocat: N tocat: N finite: !-] number: !SG] number: SG
reg: +]
Унифицированная грамматика слов Данный анализ передается дальше грамматике слов, которая в
свою очередь возвращает дерево разбора со структурой признаков: Word
______|_______ Stem INFL _____|______ +s Stem SUFFIX +PL ___|____ +mentPREFIX Stem +NR25en+ |VR1+ ROOT `large AJ
Word: [ lexcat: N number: PL ]
Унифицированная грамматика слов В то время как каждый узел дерева имеет
структуру признаков данной морфемы, структура признаков самого верхнего узла является самой важной, так как она показывает признаки целого слова.
Структура признаков слова enlargements определяет 2 признака.
Первый признак lexcat имеет значение N, означающий, что лексическая категория (часть речи) слова – существительное.
Второй признак number имеет значение PL – мн.ч.