Дешифровка линейной структуры русского предложения...

35
Т.Ю.Кобзарева Дешифровка линейной структуры русского предложения (Программа спецкурса для студентов-лингвистов) T.Yu. Kobzareva Decoding of linear structure of the Russian sentence (the program of a special course for students-linguists) Представлена программа курса для студентов-лингвистов, рассматривающего проблемы автоматического поверхностно- синтаксического анализа русского предложения. Изучаются возможности новой организации анализа: особая грамматика, определяющая порядок и рекурсивную структуру процедур анализа, позволяет сегментировать предложение перед моделированием внутренней структуры сегментов и их связей. The program of the course for students-linguists considering problems of automatic surface-syntactic analysis of the Russian sentence is presented. Possible new ways of analysis organization are studied: the special grammar defining the order and recursive structure of procedures of the parse enables to segment the sentence before modelling of internal structure of segments and connections between them. Ключевые слова Автоматический синтаксический анализ, русский синтаксис, сегментация русского предложения, омонимия частей речи, автоматический анализ именных и предложных групп Automatic parse, Russian syntax, segmentation of the Russian sentence, homonymy of parts of speech, the automatic analysis of noun and prepositional phrases ПРЕДИСЛОВИЕ Курс «Дешифровка линейной структуры русского предложения» входит в цикл специальных дисциплин образовательной программы специальности № 021800 – «Теоретическая и прикладная лингвистика» и читается 1

Upload: rggu

Post on 21-Jan-2023

1 views

Category:

Documents


0 download

TRANSCRIPT

Т.Ю.КобзареваДешифровка линейной структуры русского

предложения(Программа спецкурса для студентов-лингвистов)

T.Yu. KobzarevaDecoding of linear structure of the Russian sentence

(the program of a special course for students-linguists)

Представлена программа курса для студентов-лингвистов,рассматривающего проблемы автоматического поверхностно-синтаксического анализа русского предложения. Изучаютсявозможности новой организации анализа: особая грамматика,определяющая порядок и рекурсивную структуру процедуранализа, позволяет сегментировать предложение передмоделированием внутренней структуры сегментов и их связей.

The program of the course for students-linguists consideringproblems of automatic surface-syntactic analysis of the Russian sentence is presented. Possible new ways of analysisorganization are studied: the special grammar defining the order and recursive structure of procedures of the parse enables to segment the sentence before modelling of internalstructure of segments and connections between them.

Ключевые слова Автоматический синтаксический анализ, русский синтаксис, сегментация русского предложения, омонимия частей речи, автоматический анализ именных и предложных групп

Automatic parse, Russian syntax, segmentation of the Russiansentence,homonymy of parts of speech, the automatic analysis of noun and prepositional phrases

ПРЕДИСЛОВИЕКурс «Дешифровка линейной структуры русского

предложения» входит в цикл специальных дисциплинобразовательной программы специальности № 021800 –«Теоретическая и прикладная лингвистика» и читается

1

студентам 3-его года дневной формы обучения (II семестр)Института лингвистики. В состав программы входят

1. Содержание курса, 2. Тематический план, 3. Список литературы.Курс посвящен проблемам автоматического поверхностно-

синтаксического анализа (ПСА) русского предложения.Интенсивная разработка общих и частных проблем ПСА,продолжающаяся уже более полувека, до сих пор не привела ксозданию устойчивой и общепринятой системы синтаксическогоанализа. В то же время в современной культуре с ее быстрорастущим количеством текстовой информации и столь же быстросовершенствующимися компьютерными технологиями задачиавтоматической обработки текста становятся все болееактуальными.

В силу этого представляется важной подготовкаквалифицированных специалистов, понимающих лингвистическуюспецифику подобных задач и готовых к поиску новых путей ихрешения.

Изложение проблем и их решений опирается на опытпостроения системы автоматического поверхностно-синтаксического анализа русского предложения MARS1,разрабатываемой автором курса с 2000 года в РГГУ и нарезультаты успешных экспериментальных программных реализацийэтой системы, полученные в последние годы дипломниками иаспирантами Отделения Интеллектуальных Систем ИнститутаЛингвистики РГГУ.

Весь материал курса, состоящий из 8-ми тем, делится начетыре раздела (см. Тематический план):

1. Введение в проблематику и обоснование архитектурысистемы MARS.

2. Проблемы морфологического и морфо-синтаксическогоанализа.

3. Моделирование сегментной структуры: 3.1.предсегментация – построение сложных

сказуемых, проективных фрагментов атрибутивных именныхгрупп, предложных групп и т.д.;

3.2. сегментация – построение сегментов(простых и придаточных предложений, деепричастных,причастных и других оборотов, эксплицитно заданных правиламирусской пунктуации).

4. Моделирование внутренней структуры сегментов.1 Работа выполняется при частичной поддержке гранта РФФИ № 09-06-00275-а.

2

В курсе уделяется особое внимание обоснованию илингвистическому базису новой организации анализа – иерархиипроцедурно независимых модулей, в которой сегментацияпредложения предшествует моделированию синтаксическойструктуры предикативных ситуаций. Центральная роль отводитсяграмматике линейной организации предложения, позволившейвпервые реализовать универсальные процедуры сегментациипредложения с любой сегментной структурой, возможной врусском тексте, не являющемся записью или имитацией устнойречи, и проблемам, решение которых определяет возможностьсегментации.

При построении лингвистического базиса системы на всехэтапах «преобразования линейного порядка в структурный»(Л.Теньер) центр тяжести перенесен с проблем словарногоописания, разрабатываемых глубоко и успешно многимиисследователями и научными коллективами и ориентированных наописание простого предложения или его трансформов в составесложного, на до сих пор системно не изученные вопросыиспользования информации, которую несет порядок слов изнаков препинания. Сегментация сложных предложений на основеинформации линейного порядка слов и знаков препинания,предваряющая моделирование предикативной структуры отдельныхсегментов, помогает оптимизировать использование лексическойинформации2.

В курсе демонстрируется, как использование свойствлинейной организации русского предложения делает возможныммоделирование поверхностно-синтаксической структурыпредложения практически без обращения к глубинно-синтаксической и лексико-семантической словарной информации,что так важно для решения прикладных задач анализа.

Пристальное внимание уделяется специфической проблемеанализа, отличающей его от синтеза, а именно – омонимиямразных уровней.

Новизна курса состоит в том, что в нем рассматриваетсяновый подход к решению проблем автоматического поверхностно-синтаксического анализа русского предложения,разрабатываемый автором курса в РГГУ и доказавший своюпродуктивность при экспериментальных реализациях. Этот2 Как показывает опыт работы с текстом на основе информационно-лингвистической модели [Леонтьева Н.Н. «Автоматическое понимание текстов:системы, модели, ресурсы. – М: «Академия»,2006], сегментация предложения устраняет многие проблемы анализа еще до уровня семантического анализа. См., в частности, [М.В.Ермаков «Коррекция смысловых отношений как этап семантического анализа (на материале криминальных сводок) // Труды международной конференции 2007 – М.: Изд.РГГУ, 2007. С.178-181],

3

подход создает предпосылки решения актуальных проблем,стоящих перед специалистами данного профиля.

Предмет курса составляют свойства линейной организациирусского предложения, определяемая ими иерархия независимыхмодулей поверхностно-синтаксического анализа илингвистические и алгоритмические решения проблем каждогомодуля.

Цель курса «Дешифровка линейной структуры русскогопредложения» –способствовать подготовке квалифицированныхспециалистов, в равной мере владеющих теоретическимизнаниями и практическими навыками, необходимыми в областиавтоматического анализа русского предложения.

Задачи курса: дать студентам совокупность теоретико-методологическихпредставлений о свойствах линейной структуры русскогопредложения, служащих основой решения прикладных задач ПСА; познакомить студентов с важнейшими понятиями и моделями, используемыми автором курса при разработке автоматического ПСА; дать лингвистическое обоснование введенной автором курса иерархии дешифровочных задач ПСА; познакомить студентов с универсальным рекурсивным принципом анализа рекурсивных проективных структур, в частности – сегментной структуры русского предложения любойсложности; познакомить со сложностями и неоднозначностямидешифровочной работы с естественным текстом на всех уровняханализа; сформировать практические навыки, необходимые дляработы в области автоматического анализа и пониманиевозможных путей решения общих и частных его задач; обучить студентов понимать и тестировать алгоритмы,построенные на базе лингвистического обеспечения системы,разрабатываемой в настоящее время автором курса.

Место курса в образовательной программе определяетсязадачей подготовки студентов по специальности «Теоретическаяи прикладная лингвистика». После изучения теоретическихоснов морфологии и общего синтаксиса курс «Дешифровкалинейной структуры русского предложения» позволяет учащимсяуглубить и расширить полученные теоретические знания,применяя их на практике к материалу русского языка.

Методические особенности курса обусловлены тем, чтостуденты должны научиться соотносить лингвистическую теориюи практические знания языка с требованиями, которые

4

накладывает на создаваемую для подобных задач грамматикуэтап программной реализации – верифицикации создаваемыхмоделей. Этому способствует решение задач, развивающихумение типизировать и структурировать наблюдаемые языковыеявления.

Студент, прослушавший курс, должен: иметь представление о предмете и задачах автоматического морфологического и поверхностно-синтаксического анализа естественного текста; знать свойства линейной структуры русского предложения,существенные для оптимизации анализа; владеть понятийным аппаратом изучаемого подхода; знать, какие уровни анализа и соответствующие им модуливводятся для оптимизации процесса анализа; знать проблемы и пути их решения для каждого модуля системы; понимать существо используемых для анализа свойств проективности и рекурсивности подчинительных и сочинительных связей, имплицирующих проективность и рекурсивность линейной структуры именных и предложных группи сегментов; знать функциональные особенности запятой и сочинительных союзов; уметь строить условные схемы анализа проективных рекурсивных структур для конкретных примеров; уметь, используя грамматику соответствующих уровней анализа, объяснять результаты анализа на каждом этапе, и в частности – неоднозначности каждого уровня анализа; уметь прочитывать и применять к конкретным примерам алгоритмы изучаемой системы; знать содержание основных работ, посвященных проблемам данной тематики.

Объем курса - 28 часов лекций и практических занятий. Содержание курса предусматривает лекционное изложение,

совмещенное с семинарскими занятиями, и самостоятельнуюработу студентов.

В ходе занятий студенты решают задачи и выполняютупражнения, способствующие усвоению излагаемого материала.

Уровень усвоения предмета проверяется на этапахпромежуточного и итогового контроля: студенты выполняюттесты, позволяющие оценить владение изученными моделями ипрактические навыки работы с текстом.

5

СОДЕРЖАНИЕ КУРСАТема 1. Введение в проблематику.История постановки задачи синтаксического анализа.

Знаковая природа текста. Понимание текста (текст и егосмысл). Два понимания термина дешифровка. Двуязычные записиодного и того же текста (билингвы) как шифры.

Дешифровка как установление соответствия между знакамии их значением.

Идея подобия перевода дешифровке: американскийкриптолог Уоррен Уивер, директор отделения естественных наукРокфеллеровского фонда, в письме Норберту Винеру (март 1947г,) о машинном переводе: "Передо мною текст, написанный по-русски, но я собираюсь сделать вид, что на самом деле оннаписан по-английски и закодирован при помощи каких-тостранных символов. Все, что мне нужно сделать — это взломатькод, чтобы извлечь информацию, которую содержит текст"

Переход от текста к смыслу (анализ) и от смысла ктексту (синтез). Базис автоматического «понимания» текста –лингвистическое описание знаковой структуры текста – какопределение «шифра».

Проблемы анализа и синтеза предложения. Главное отличиеанализа от синтеза: неоднозначности интерпретации на каждомуровне анализа как один из основных факторов, осложняющиханализ.

Машинный перевод как автоматический (при помощикомпьютера) перевод текстов с использованием специальныхалгоритмов и автоматических машинных словарей.

Рис.1. Принципиальная схема процедуры машинного перевода.

6

Идея использования ЭВМ для перевода (А.Бут и У.Уивер), 1946 г. – дискуссии о принципиальной возможности МП.1948 г. – предварительные эксперименты А. Бута и Р.

Риченса. Разбиение словоформ на основы и окончания.1952 г. – первая конференция по МП в Массачусетском

технологическом университете, организованная Бар-Хиллелом: способыпредставления синтаксических правил языка и морфологическихструктур, описание семантики и структуры словарей дляавтоматического перевода.

1954 г. – Джорджтаунский эксперимент: (фирма IBMсовместно с Джорджтаунским университетом) перевод с РЯ наанглийский 49 заранее отобранных предложений на основесловаря из 250 слов и 6 синтаксических правил. Два этапа;исходное предложение → язык-посредник (упрощенныйанглийский) → представление на английском языке.

Анализ и синтез предложения как компоненты задачиавтоматической обработки текста, в частности - задачимашинного перевода

Лингвистическое обеспечение: словари, грамматика,математические формализмы записи данных и алгоритмы ихпереработки.

Деление процедуры анализа на этапы морфологического исинтаксического анализа. Разные поколения экспериментов по МП:

1. МП в три этапа: морфанализ → преобразование → морфсинтез.

2. МП с синтаксическим анализом: морфанализ→ синтаксический анализ → преобразование → синтаксическийсинтез → морфсинтез.

3. Те же этапы, что в п.2., но независимые анализ и синтез.

4. Отделение грамматики от «механизма», т.е. лингвистического описания от процедур –статической компоненты от динамической.Идеи Л.Теньера и А.М.Пешковского как теоретическая

основа синтаксического анализа русского предложения:представление синтаксической структуры простого предложенияв виде графа связей слов: «В основании всего структурногосинтаксиса лежит соотношение между структурным порядком ипорядком линейным»; понятия валентности, проективности,нулевого знака в словоизменении и в синтаксисе и др.

Возможности и области приложения. Актуальность общей задачи анализа и ее частных подзадач в свете совершенствования виртуальных форм хранения информации.

7

Разные цели автоматического анализа и разные конечные задачи. Система синтаксического анализа русского предложения И.А.Мельчука и Л.Н.Иорданской. Словарь. Понятие отношения непосредственной доминации. Понятие синтагмы. Постулируемые задачи: 1.Расчленение предложения на части – простые предложения и их трансформы, представляющие отдельные экстралингвистические ситуации. 2. Различение синтаксической омонимии. 3. Выявление фразеологизмов. 4. Получение информации к частям сложного предложения и всему сложному предложению. 5. Установление связей между словоформами внутри частей сложного предложения и между этими частями.

Основа анализа – единый модуль решения 5-ой задачи. Синтаксический базис: список отношений непосредственной

доминации и словарь синтаксических конфигураций. Понятие исходного и окончательного сегментов. Построение дерева связей слов предложения на основе словаря синтаксических конфигураций.

Два этапа: внутрисегментный анализ в границах исходных сегментов и межсегментный анализ в пределах всего предложения.

Применение идеи фильтров проективности Д.Лесерфа.Сущностная общность сравнительно-исторических

реконструкций, задач дешифровки и лингвистического моделирования при машинном переводе.

Сравнительно-историческое языкознание. Идея реконструкции праязыка как корня родственных языков и строгость сравнительно-исторических «правил вывода». Праязыккак язык-посредник.

Необходимость для дешифровки существования перевода наизвестном языке, выступающем в роли языка-посредника,дающего возможность определить означаемые неизвестныхзнаков: дешифровка египетской письменности. Параллельныетексты, найденные Наполеоном: древнеегипетский –новоегипетский – греческий.

Язык смысла или язык глубинного синтаксиса в модели И.А.Мельчука «Смысл ↔ Текст» как язык-посредник. Грамматика линейной организации предложения.

Объект исследования при анализе предложения – строго упорядоченная последовательность знаков (слов, пробелов, знаков препинания).

8

Предложение как сложный знак. Единицы линейной структуры при его интерпретации: графемы, словоформы и морфологически автономные группы слов и\или знаков препинания, простые предложения и части сложного предложения– трансформации простых предложений, объединенные в единое целое. Структура простого предложения по Л.Теньеру: «Глагольный узел, который является центром предложения в большинстве европейских языков <…>, выражает своего рода  маленькую драму. Действительно, как в какой-нибудь драме, в нем обязательно имеется действие, а чаще всего также действующие лица и обстоятельства. Если перейти от плана драматической реальности к плану структурного синтаксиса, то действие, актеры и обстоятельствастановятся соответственно глаголом, актантами и сирконстантами»

По Л.Теньеру «конструировать или устанавливать стемму фразы – это значит преобразовывать линейный порядок в структурный».

Грамматика линейной организации предложения, задающая грамматические смыслы определенным линейным конфигурациям.

Объединение множества «маленьких драм» Л. Теньера в одно многосегментное предложение. Трансформация простых исходных предложений в придаточные, деепричастные и причастные обороты и т.д.

Информация о линейных компонентах предложения для его интерпретации – поиска означаемых,

Тема 2. Архитектура системы поверхностно-синтаксического анализа.

Рис 2. Обязательные компоненты анализа.

Иерархия дешифровочных задач при синтаксическом анализе. Деление процедуры анализа на модули – группы

алгоритмов, объединяемые синтаксической общностью анализируемых явлений. Важность идентификация отрезков предложения, соответствующих составляющим его исходным простым ситуациям для упрощения построения связей слов внутри этих отрезков и связей между ними.

Упрощение анализа и уменьшение вариантов интерпретации на каждом следующем уровне при введении естественного порядка дешифровочных процедур, в частности – определяемого возможностью сегментации.

9

Морфологический анализ

Синтаксический анализ

Деление процедуры анализа на уровни и решение проблем каждого уровня при помощи отдельного модуля. Л.Теньер: «Синтаксическая иерархия устроена так же, как и иерархия военная, в которой каждый военнослужащий выполняет строго определенные функции».

Модульность системы как базис решения разных конечных задач синтаксического анализа.

Брат, не_нашедший книги, которую он, дочитав, оставил на своем столе, огорчился.

Рис.3. Представление результата синтаксического анализа предложения в виде графа связей его слов.Архитектура системы синтаксического анализа.

Иерархия задач и соответствующих модулей системы. Табл.1. Иерархия и задачи модулей системы синтаксического анализа MARS.

Модуль Задачи модуля1. Постморфологический анализ

Решение несловарных проблем морфанализа

2.Разрешение омонимиичастей речи

Разрешение морфологической омонимии частей речи

3. Предсегментация Построение линейных отрезков – едиництекста при сегментации (проективных фрагментов именных и предложных групп,сложных сказуемых и т.д.)

4. Сегментация Построение эксплицитно заданных сегментов: придаточных предложений, деепричастных, определительных и других обособляемых оборотов

5. Внутрисегментный анализ

Поиск связей слов внутри построенных сегментов

6. Межсегментный анализ Построение связей сегментов7. Построение отношений кореференции

Установление отношений референциального тождества именных групп в пределах предложения.

Поиск путей упрощения хода анализа и предупреждения построения ложных вариантов. Естественный порядок работы независимых модулей дешифровочных процедур.

10

Возможность разных подходов к анализу русского предложения: 1) с центром тяжести на лексико-семантической или глубинно-синтаксической словарной информации и 2) алгоритмический путь на основе грамматики линейно-комбинаторных возможностей предложения. Достоинства и сложности каждого из этих подходов.

Теория и эксперимент. Верифицирование In vitro vs. In vivo.Статическая и динамическая компоненты анализа.

Статическая компонента (грамматический инструментарий):словарная информация, словарь типов омонимии частей речи, списки синтагм, линейные синтаксические конфигурации, идеальные модели явлений вводимых уровней и др.

Базис каждого модуля системы синтаксического анализа: а) морфологическая и грамматическая словарная информация, получаемая в результате морфологического анализа; б) информация о линейном порядке компонент предложения; в) информация, полученная предшествующими модулями; г) лингвистические модели явлений, определяющие грамматические значения линейной структуры контекста.

Динамическая компонента (алгоритмические процедуры) – процедуры, устанавливающие соответствие между компонентами текста – реальными словами или линейными структурами – и единицами словарей, списков слов или словосочетаний, идеальными моделями анализируемых объектов.

«Стандартные подпрограммы» (в терминологии И.А.Мельчука– операторы) – универсальные алгоритмы, используемые на всехуровнях анализа: проверки согласования (согласование существительного и его синтаксических эквивалентов( N*) и прилагательного и его синтаксических эквивалентов (A*) по роду, числу. падежу, согласование N* и A* по падежу, согласование двух А*, согласование двух N по падежу, согласование глаголов, глагола и полного А* в Им.\Тв и т.д.), проверка управления (может ли слово управлять данной частью речи в данной форме) и т.д.

Тема 3. Спектр проблем и этапы морфологического анализа (МА). Лингвистическое обеспечение морфанализа в системе MARS.3-этапность МА в системе.

1-ый этап. Словарный морфанализ на основе словаря основ(VL), списка флексий русского языка и словаря таблиц флексий(VT).

11

Информация словарной статьи VL – стандартный набор характеристик статьи: буквенная запись основы (дом, красн); лексический номер основы (разные номера у совпадающих (омонимичных) основ: пол:1. ЛН=41831 – сущ. поле, 2. ЛН=70458 – сущ. пол 3. ЛН=10486 – прил. полый); ЧР — часть речи в принятой кодировке; поверхностно-синтаксическая модель управления – способность управлять определенными падежами, предлогом (без указания конкретного предлога), инфинитивом иподчинительным союзом; семантический класс (семантические классы, релевантные для поверхностно-синтаксических связей).Отсылка на таблицу флексий.

Табл.2. Примеры семантических классов и подклассовсуществительных

класс подкласс пример1 – предмет неодушевленный

1 машины, аппараты двигатель 2 все остальные дом

2 – предмет одушевленный

1 – собственные имена лиц

Лужков

2 – собственные имена не лиц

Барбос

3 – нарицательные имена лиц

инспектор

4 – нарицательные имена не лиц

верблюд

3 – вещество, материал 1 – видовое вода 2 – родовое жидкость

Информация словарной статьи словаря флексий (VT): номерсловоизменительной таблицы, часть речи, число, время, род, падеж, лицо и т.д. Для окончаний существительных – падежи определенных родов и определенных чисел, для личной формы глагола – лицо, число, время, род и т.д.

Алгоритм словарного морфологического анализа. 1. Процедура морфологического членения: отсечение всех возможных у данной словоформы окончаний в соответствии со списком существующих в русском языке окончаний, проверка сочетаемости полученных гипотетических основ и окончаний по отсылкам при основах на таблицы флексий. 2. Построение исходного грамматического образа словоформы соединением информации словаря основ и информации найденныхокончаний. Возможность морфологической омонимии и полисемии – построения для словоформы более одного грамматического образа.

Недостаточность словарного морфанализа для покрытия произвольного текста: частицы (-ка, -то), продуктивное

12

суффиксальное и префиксальное словообразование (поскорее, помедленнее, немочка, чистосердечнейшей, розовейшее и др.), неологизмы, окказиональные аббревиатуры.

Этапы 2 и 3 – построение гипотез о морфологических свойствах слов, основ которых нет в VL.

2-ой этап. Алгоритм анализа причастий и деепричастий глаголов, основы которых отсутствуют в VL, по суффиксам и окончаниям.

3-ий этап. Морфанализ слов, не получивших морфологические характеристики на 1-ом и 2-ом этапах, по словарю «псевдоокончаний» (VF) – словарю концов («хвостов») слов в объеме словника обратного «Грамматического словаря» А.А. Зализняка. Гнездовая структура словаря «хвостов». Необходимость включения в VL слов, являющихся исключениями из морфологических гипотез хвостов. Табл.3. Примеры анализа продуктивных словообразовательных

моделей по псевдоокончанию («хвосту»).Примеры из прозы О.Мандельштама со словами, основ которых нет в словаре

Результат анализа этих слов похвосту (в скобках – расшифровка результатов, записанных в кодах системы)

такую степень зачеловеческого бытия

зачеловеческого - ЧР=6 (прилагательное); МР=2,4 (Род\Вин м.р.); СР=2 (Род. ср.р.);

непреодолимыми необычностями необычностями - ЧР=1 (существительное); МН=5 (Тв мн.ч.);

в неясных видениях первосонья первосонья - ЧР=1 (существительное); МР=1,2,4 (Им\Род\Вин м.р.)

привычными обобщительными рукоплесканиями

обобщительными - ЧР=6 (прилагательное); МН=5;

в позе роденовского мыслителя роденовского - ЧР=6(прилагательное); МР=2,4;СР=2;

близехонько от нее близехонько - ЧР=16 (наречие);

Недостаточность 3-хэтапного морфанализа для работы на открытом естественном тексте – проблемы, остающиеся нерешенными после 3-х рассмотренных этапов морфанализа: 1. слова, которые не могут быть проанализированы правильно ни по одному из трех рассмотренных этапов; 2. словоформы, которые 2а) в составе словосочетания теряют морфологическую автономность и\или меняют свой морфологический статус и 2б) получают несколько морфологически правильных характеристик.

13

Тема 4. Проблемы морфо-синтаксического анализа.Виды омонимии. Понятия морфологической и синтаксической омонимии. Омонимия в словаре и омонимия в тексте. Омонимия слов и омонимия структур. Омонимия внутрисегментных связей (подчинительных исочинительных связей), омонимия сегментной структуры предложения, порождаемая морфологической омонимией, омонимией знаков препинания и сочинительных союзов и неоднозначностями сочинительных и подчинительных связей. Необходимость определения на каждом уровне анализа набора значимых ситуаций, и, в частности, линейно-комбинаторных структур, манифестирующих возможность появления омонимии.

Омонимия частей речи как один из самых значимых источников шума на всех уровнях дешифровки.

Синтаксическая омонимия, порождаемая морфологической омонимией частей речи (Поговорим о плохом после. Зимним утром он любовался дорогой.)

Функциональная омонимия знаков препинания и сочинительных союзов, возможные неоднозначности сочинительных и подчинительных связей. Проблема определения на каждом уровне признаков контекстных ситуаций, манифестирующих возможность омонимии.Предсинтаксический анализ.

Два класса морфологических проблем после работы модуля МА: 1. несловарные проблемы морфанализа (модуль постморфологического анализа) и 2. омонимия частей речи.1. Модуль постморфологического анализа. Несловарные проблемы МА: слова, которые не могут получить правильные морфологические характеристики при рассмотренном МА.

Построение исходных грамматических характеристик аббревиатур, имен собственных, названий в кавычках, многосоставных числительных в буквенной и цифробуквенной записи, осложненное омонимией количественных vs. порядковых числительных.

Табл.4. Примеры объектов анализа модуля постморфологииСлова и словосочетания Примеры

Аббревиатуры МВД

Слова и словосочетания

Имена собственные Важа ЛордкипанидзеЧислительные 2 млрд. 57 тыс. 24 Названия в кавычках “Ты должен бежать от

них”;Проблемы приписывания морфологических характеристик

цифро-буквенным, буквенным общепринятым и окказиональным

14

аббревиатурам, словам и словосочетаниям в кавычках, многосоставным числительным. (В «Войне и мире» автор…; В романе «Война и мир»…; В «Любить» режиссер…)

Сложности и особенности анализа каждой из этих групп, обусловленные возможностью омонимии (Учительница Евгения Иванова, сфотографировал 21 дом, 24 (дом) vs.24 (дома) и др.).Модуль разрешения морфологической омонимии частей речи.

Важность разрешения омонимии частей речи. Неоднозначности интерпретации линейной структуры при сегментации и построении графа связей: морфологическая омонимия как фактор, порождающий неоднозначности интерпретации. Универсальный модуль предсинтаксического анализа (УМП) – “мост” от морфологического анализа к синтаксическому, содержательно необходимый при любом подходе и любых конечных задачах анализа естественного текста (ЕТ).

Рис.4. Место УМП в системе автоматического анализа естественного текстаПроблема снятия морфологической неоднозначности.Источники частичной омонимии.

1. Потеря словами морфологической автономности и изменение морфологического статуса в следующих случаях:

1а. вхождение в устойчивые словосочетания. Подчинительный союз vs. компонента сложного наречия (вряд ли, во что бы то ни стало и др.): [избегает объяснений, говоря что угодно..., делая что угодно..., думает при этом о чем угодно...] vs. [делает, что угодно начальству...]; подчинительный союз vs. разорванное вложением предлога местоимение (ни с кем), возможность омонимии этих словосочетаний (Я не знаю, ни с кем он ушел, ни для чего взял с собой эти книги) и др.

1б. Вхождение в состав вводного оборота – слова или словосочетания (значит, как правило, признаться, и др.)

15

Начальный фрагмент системы обработки ЕТ на РЯ

ЕТ на РЯ УМП

Морфологический анализ

Синтаксический анализ

Разрешение 1-ого типа омонимии: списки устойчивых словосочетаний (вводные, сложные наречия, фразеологизмы, сложные предлоги и др.) и контекстные условия в ситуациях возможной омонимии.

2. Неоднозначность как результат словарного морфанализа– омонимия частей речи (частеречная омонимия) – совпадение отдельных форм слов разных частей речи как один из самых значимых источников синтаксической омонимии и шума на всех уровнях дешифровки.Разрешение омонимии частей речи (частичной омонимии)

Исчисление видов частичной омонимии. Необходимость создания базиса модуля. Словарь частеречных омонимов. Составление на его основе словаря типов омонимии частей речи, значимых с точки зрения их синтаксических функций, в объеме словника «Грамматического словаря» А.А.Зализняка3 с учетом словоизменительных моделей русского языка.Табл.5. Фрагмент списка типов омонимии из словаря типов омонимии частей речи с указанием количества омонимов каждоготипа с примерами в объеме словника «Грамматического словаря»А.А. Зализняка.№ Тип омонимии Кол-во

омонимичных словоформ данного типа

Примеры

1 <D/Abr*> 922 совершенно, адекватно, безумно...2 <Vf/N*> 878 берег, вызову, души...3 <N*/A*> 379 больной, дорогой, это...4 <N*/Abr*> 263 гол, долги, знаком ...

3 Разработанный список синтаксически значимых видов частеречной омонимии полезен для любых систем синтаксического анализа. После его публикации в [Кобзарева Т.Ю. Афанасьев Р.Н. Универсальный модуль предсинтаксического анализа омонимии частей речи в русском языке на основе словаря диагностических ситуаций // Труды международного семинара Диалог 2002 – Протвино, 2002, Т.2. С 258-268] он был использован, в частности, в работе [Зинькина Ю.В., Пяткин Н.В., Невзорова О.А.Разрешение функциональной омонимии в русском языке на основе контекстных правил // Труды международной конференции Диалог 2005 – М.: Наука, 2005. С.198-202]и [Невзорова О.А., Зинькина Ю.В., Пяткин Н.В., Метод контекстного разрешения функциональной омонимии: анализ применимости // Труды международной конференции Диалог 2005 – М.: Наука, 2006 С.399-402] .

16

5 <N*/Dv> 167 пролив, буря, нагоняя...6 <N*/D> 107 часами, летом, бегом...

Разрешение частичной омонимии по грамматическому контексту. Алгоритмы разрешения омонимии определенного типа.

Диагностические ситуации. Проблема порядка работы алгоритмов. Необходимость итераций всего комплекса алгоритмов и несущественность порядка алгоритмов при введении итераций. Условие итерации – разрешение на очередном шаге работы комплекса хотя бы одного случая омонимии.

Используемые обозначения: N*:= {N - существительное, Npr- местоименное существительное}; A*:= {A - полноеприлагательное, Av - полное причастие, Apr - местоименноеприлагательное}; Abr*:= {Abr - краткое прилагательное; Vf -глагол в личной форме; D - наречие;; Dv - деепричастие; P -предлог; Nps – существительное – подчинительный союз; Ch -частица; CC - сочинительный союз.

: слово Li управляет словом Lj (т.е. данной частью

речи в данной форме); : слова Li и Lj согласуются

по роду, числу и падежу; : слова Li и Lj

согласуются по падежу2; означает, что глаголы в личной форме согласуются.Внимательно[=Abr*/D] глядя[=Dv] на[=P] дежурного[=A*/N*], который[=Nps], казалось[=Vf/VS] бы[=Ch],тихо[=Abr*/D] сидел[=Vf] и[=CC] что-то[=Npr] правил[=N*/Vf] в[=P] дежурном[=A*/N*] журнале[=N], больная[=A*/N*], прекрасно[=Abr*/D] понимавшая[=Av] ситуацию[=N], совершенно[=Abr*/D] неосознанно[=Abr*/D] вздрогнула[=Vf], когда[=Dps] ее[=A*/N*] позвали[=Vf] в[=P] приемную[=A*/N*] врача[=N].”Ситуация 1: …вздрогнула, когда ее позвали ……< Vf > <Zpt> <Dps> < A */ N * - ( его / ее / их )> < Vf > … Проверка условий: В данной ситуации между <Vf> = вздрогнула и <Vf> = позвали <N> & <A> (кроме омонима ее). Условие выполняется. Вывод: ее = <N>.

Ситуация 2: … глядя на дежурного , который, казалось бы, тихо сидел……<Dv> <P> <A*/N*> <Zpt> <Nps> <Zpt> <VS> <Zpt> <Abr*/D> <Vf>…Проверка условий: 1) на дежурного ≠ . 2) Справа от омонимадежурного до <Vf> = сидел <N>. Вывод: дежурного = <N>.

17

Ситуация 3: …в дежурном журнале, больная … неосознанно вздрогнула… < P > < A */ N *> <N><Zpt><N>…<Abr*/D><Vf>…Проверка условий: 1) на дежурного ≠ . 2) Справа от омонима

дежурном до <Vf> = вздрогнула <N> = журнале. 3) в журнале ≠

4) журнале дежурном ≠ . Все условия выполняются. Вывод:дежурного = <A> и т.д. Табл.6. Пример разрешения по контексту частеречной омонимии для предложения После завтрака все больные, не готовые к резкой перемене погоды, ждали врача.

Результаты морфанализа После работы модуля снятия омонимии 1. После 1. ЛН=82430;ЧР=1;РД=1;МР=6; 2. ЛН=243;ЧР=22; ПУ=2;2. завтрака 1. ЛН=81467;ЧР=1;РД=1;МР=2;3. все 1. ЛН=10000;ЧР=8;СР=1,4;МН=1,4; 2. ЛН=10000;ЧР=5;РД=4;СР=1,4;МН=1;4. больные 1. ЛН=13722;ЧР=1;РД=8;МН=1; 2. ЛН=13722;ЧР=6;РД=8;МН=1,4;5. , 1. ЧР=37;ВP=0;6. не 1. ЛН=56;ЧР=23;7. готовые 1. ЛН=14028;ЧР=6;РД=8;МН=1,4; ПУ=1,8;8. к 1. ЛН=161;ЧР=22; СУ=3;9. резкой 1. ЛН=40598;ЧР=1;РД=2;ЖР=5; ПУ=2,5; 2. ЛН=12064;ЧР=6;РД=2;ЖР=2,3,5,6;10. перемене 1. ЛН=46275;ЧР=1;РД=2;ЖР=3,6; ПУ=2;11. погоды 1. ЛН=65235;ЧР=1;РД=2;МР=2;ЖР=2;12. , 1. ЧР=37;13. ждали 1. ЛН=3115;ЧР=10;ЛЧН=8;ВЗ=1;ВP=1;АСУ=2,4;14. врача 1. ЛН=42132;ЧР=1;РД=1;МР=2,4;

1. После 1. ЛН=243;ЧР=22; ПУ=2;

2. завтрака 1. ЛН=81467;ЧР=1;РД=1;МР=2;3. все 1. Н=10000;ЧР=8;СР=1,4;МН=1,4;

4. больные 1. ЛН=13722;ЧР=1;РД=8;МН=1;

5. 1. ЧР=37;6. не 1. ЛН=56;ЧР=23; Д1=,26;7. готовые 1. ЛН=14028;ЧР=6;РД=8;МН=1,4; ПУ=1,8;8. к 1. ЛН=161;ЧР=22; СУ=3;9. резкой 1. ЛН=12064;ЧР=6;РД=2;ЖР=2,3,5,6;

10. перемене 1. ЛН=46275;ЧР=1;РД=2;ЖР=3,6; ПУ=2;11. погоды 1. ЛН=65235;ЧР=1;РД=2;МР=2;ЖР=2;12. , 1. ЧР=37;13. ждали 1. ЛН=3115;ЧР=10;ЛЧН=8;ВЗ=1;АСУ=2,4; 14. врача 1. ЛН=42132;ЧР=1;РД=1;МР=2,4;

Тема 5. Синтаксический анализ. 18

Базисные понятия и идеальные модели.Понятия синтаксически автономных единиц, отрезка,

проективного фрагмента, сегмента. Два вида эксплицитно заданных компонент текста: морфологически автономные единицы– слова и словосочетания, заданные пробелами, и синтаксически автономные части предложения – сегменты – самодостаточные, соответствующие отдельным элементарным ситуациям и заданные эксплицитно правилами русской пунктуации компоненты предложения: простые и придаточные предложения, деепричастные обороты, согласованные обособленные определения с вершинами – причастием, прилагательным или их синтаксическими аналогами, вводные обороты, уточняющие, сравнительные, предложные обороты. Табл.7. Усложнение предложения вставлением в него сегментов – трансформов простых предложений, задающих ситуации, входящих в многосегментное предложение. Тип сегмента Пример простые-главные Мальчик ел кашу. придаточные предложения Мальчик, отец которого ушел, ел

кашу.деепричастные обороты Мальчик, отец которого, вспомнив о

намеченной встрече, ушел, ел кашу.обособленные согласованные определения

Мальчик, уставший от занятий, отец которого, вспомнив о намеченной встрече, ушел, ел кашу

Представление отношений слов и сегментов в виде графа.Два типа отношений слов и сегментов.1. Подчинительная связь: отношение, связывающее непосредственно две единицы и направленное от слова X (хозяина) к слову Y (слуге). Нумерованный список видов связи – список синтагм (форма записи: X Rk Y где X – хозяин, Y- слуга, и Rk - связь с номером k.Мальчик ест кашу. ест Rk мальчик; ест Rn кашу.Представляем связи в виде графа

ест.

Мальчик кашу. или Мальчик ест кашу.

Рис.5.2. Сочинительная связь.

Понятие оператора. Операторы - знаки препинания и сочинительные союзы или их комбинации, выступающие в предложении в функциях границ сегментов, операторов

19

сочинения или манифестирующие другие отношения компонент предложения.Неоднозначности интерпретации функций операторов на примере запятой.

1. Он видел отца, работающего в саду соседа, старика и Ваню. зпт1 зпт2

2.Он видел отца, работающего в саду соседа, старика и Ваню. зпт1 зпт2 Рис.6.Понятие бифункциональности запятой.Табл.8. У Зпт2 в интерпретации 1 две разные функции – она бифункциональна.

Пример Запятая Функция запятой Интерпретация 1

Зпт1 1. Левая г-ца обособленного А-оборота

Зпт2 1. Правая г-ца обособленного А-оборота 2. Оператор сочиненияслов отца и старика

Интерпретация 2

Зпт1 1. Оператор сочинения слов отца и соседа

Зпт2 1. Оператор сочинения слов соседа и старика

Базисные свойства линейной структуры. Понятие проективности структуры, введенное Л. Теньером. Граф связей слов с сохранением по горизонтали порядка следования слов, а по вертикали – с расположением слов соответственно иерархии подчинительных связей. Непересечение ветвей и опущенных из узлов дерева перпендикуляров как условие правильности структуры.

написана Книга ученым

известным Рис. 7. Пример проективной структуры.

20

Ужален я змеею, небольшою крылатой

Рис. 8. Пример непроективной структуры (из стихотворения Державина). Понятие рекурсивности структуры.

Рекурсивность линейной структуры предложения. Вложение сегментов в сегменты – сегментная матрешка. Иерархия вложений.

,уже опаздывая на работу,

отец которого ушел

Мальчик читал книгу

Рис.9. Пример иерархии вложений.

Тема 6. Предсегментация.Понятие сегмента. Сегмент – компонента линейной структуры, эксплицитно заданная при помощи операторов и соответствующая одной из элементарных ситуаций, составляющих предложение. Компоненты сегмента – предикативная вершина и актанты и сирконстанты, заданные именными и предложными группами (ИГ, ПГ) или целымисегментами, замещающими ИГ и ПГ. Предсегментация как построение значимых при сегментации единиц текста: предикативных вершин сегментов – сложных сказуемых, проективных фрагментов ИГ, ПГ, и др.Особенности линейной организации ИГ и ПГ, определяющие процедуры их моделирования.

Понятие проективного фрагмента ИГ и ПГ – не выделенной эксплицитно части предложения, рассматриваемой в ходе сегментации как единое целое: …упрямые, рассудочные, в глухих местечках метившие в гении юноши.. ; …он исполнял какой-то темный, лично ему свойственный инстинктивный акт. (О.Мандельштам)

21

Проективный фрагмент (ПФ) – часть текста, являющаяся потенциально сколь угодно сложной рекурсивной структурой – «матрешкой» ИГ или ПГ.

Синтагматические связи, определяющие в линейной структуре границы ИГ и ПГ.Построения внутрисегментных подчинительных связей, задающих границы ПФ, выступающих единицами при сегментации и границами анализа при внутрисегментном анализе.

Краткая характеристика алгоритмов модуля предсегментации: построение сложного сказуемого, определительных отношений именных групп (ИГ), предложных групп (ПГ) и т.д.

Рекурсивность и проективность 1. определительных именных групп (ИГ), задаваемых связью существительного с необособленным согласованным определением – прилагательным или его синтаксическим аналогом (NRA), 2. предложных групп (ПГ: PRN), 3. конструкций с именами собственными и 3. конструкций с числительными.

Идеальная модель «матрешечной» ПФ ИГ и ПГ. Иерархия последовательных и параллельных вложений ИГ в ИГ и ПГ и ПГ вИГ и ПГ.

серой пылью

под покрытой скатертью

На едва видном столегорел ночник.

Рис.10. «Матрешка» проективных фрагментов ИГ и ПГ.

Построение проективных фрагментов ИГ и ПГ как базисная модель построения проективных рекурсивных структур.

Набор элементарных вложений и проблемы, ими порождаемые. Элементарные вложения: 1) вложения ПГ в ИГ (в валяющейся под… столом корзине); 2) вложения ИГ – слуги А* (длязанятого … экспериментом студента); 3) вложение инфинитива в ИГ (на начавшую решать … студентку); 4) вложения ИГ – слуги N (рисующего сына друга художника) и др.

1. рисующего сына художника

2. рисующего сына художника

22

3. рисующего сына художника

Рис. 11. Истинная синтаксическая омонимия.

Построение внутрисегментных подчинительных связей, задающих границы проективных фрагментов - потенциальных матрешек.

Падежная омонимия и несильное управление согласованного определения А* как источники неоднозначностейпри построении проективных фрагментов именных и предложных групп. Рекурсивный алгоритм построения ИГ и ПГ, определяемый грамматическими возможностями их линейной организации. Условная схема построения проективных фрагментов ИГ и ПГ - способ визуализации процедуры работы с линейной структурой текста.

сидящему на сколоченной из досок скамье мальчику ….

Рис.12. Условная схема процедуры рекурсивного анализа матрешки ИГ и ПГ.Согласование А* и N*. Стандартная подпрограмма проверки согласования N* – существительного или его синтаксического аналога и A* – прилагательного или его синтаксического аналога.

Факторы, осложняющие проверку согласования существительного с прилагательным4.

4 Заметим, что синтаксический корректор Microsoft Office Word 2003 для предложения Пришли старые папа и мама. выдает сообщение «Нет существительных, согласующихся с прилагательным «старые»», а для Папа и мама, которые не знали… – «Перед «которые» в пределах 3-х слов нет согласованных с ним существительных. Исправьте окончание…»

23

Одушевленность – неодушевленность существительного – вершины ИГ (мальчика (Вин.\Род) первого (Вин.\Род.) стол (Вин.\Им.); мальчика (Вин.\Род) первый (Вин.\Им.) стол (Вин.\Им.)).

Сочинение (рыжим мальчику и девочке; первой и второй девочкам).Представление сочинения как результата сочинительного сокращения, суть которого –элиминирование повторов, как бы «вынесение за скобки» общих компонент (Он описывает стиль этих художников, и он описывает темперамент этих художников. → Он описывает [стиль этих художников и темперамент этих художников ] →Он описывает [[стиль и темперамент] этих художников ] ).

Конструкции с числительными (два старые\старых стола; старые\старых два стола; старые\старых пять столов)

Возможность недревовидности графа при сочинении (Пришли старые папа и мама. Старые дедушка, дядя и отец; белый и черный стол; Папа и мама, которые не знали…)Проективность как свойство, непосредственно связанное с линейной структурой предложения, сочинительная проективность. Операторы сочинения – границы «зон влияния» сочиненных слов (Он любил [картины [отца и брата] и его мастерскую].

Иерархия сочинительных связей (Он живет не в этом доме и в своей квартире никогда не появляется. Навестил мать старую и больную сестру.).

Истинные неоднозначности (Мальчик маленький стульчик отодвинул).

Тема 7. Сегментация предложения.Идеальная структура русского предложения. Рекурсивность и проективность сегментной структуры и рекурсивная процедура ее анализа.

Что такое сегментация предложения. Идеальная модель многосегментного предложения. Идеальная модель представлениямногосегментного предложения в виде многомерного «леса графов».

Сложности дешифровки, порождаемые фактом одномерности структуры предложения и многомерности языкового пространствапредикативных ситуаций, проецируемых в процессе синтеза предложения на линейную структуру письменного текста.

Простое предложение (условное обозначение при моделировании – β-сегмент). Цепочка «сочиненных» простых(-главных) предложений.Уровни вложений.

24

Первый уровень вложений. Вложения в каждое из простых-главных предложений (β-сегмент), являющихся основой, «костяком» сложного предложения, следующих компонент: придаточных предложений, деепричастных оборотов, согласованных определительных оборотов с вершинами – прилагательными или существительными, сравнительных, уточняющих, предложных, вводных оборотов (условное обозначение сегментов, вложенных в простые-главные – α-сегменты).

Следующие уровни вложений – вложения α-сегментов в α-сегменты.

Разрывы при вложениях как главный источник проблем сегментации.

Понятие иерархии вложенных сегментов (Странно, что в те годы, когда словесность в России пришла в упадок, русский режиссер, несмотря на все искажения, создал сценический вариант, который в какой-то мере передавал подлинного Гоголя (В.Набоков))

когда словесность в России пришла… несмотря на все искажения который в какой-то мере передавал подлинного Гоголя

что в те годы русский режиссер создал сценический вариант .

Странно .

Рис.13. Пример 3-уровневой иерархии вложений сегментов в сегменты – сегментной «матрешки».

Правила русской пунктуации: эксплицитная заданность границ сегментов в РП при помощи операторов. Бифункциональность и омонимия запятой.

Граница сегмента – сочинительный союз. Ситуации сочинения придаточных с повтором подчинительного союза и безповтора (Беда в том, что ни искренность, ни честность, ни даже доброта сердечная не мешают демону пошлости завладеть пишущей машинкой автора, если у него нет таланта и если читающая публика такова, какой считают ее издатели. И теперь, когда на освещенном столе была положена доска и (когда*) отец стал ее вытирать газетой, лицо у него было не насмешливое, и Лужин,… (В.Набоков))

Операторы – границы отрезков.Используемые обозначения: β-сегмент – простое-главное предложение, α-сегмент – любой сегмент, не являющийся β-сегментом, α-отрезок – безусловная левая компонента α-сегмента, β-отрезок –отрезок предложения, не являющийся α-отрезком и α-сегментом, ограниченный операторами, не

25

находящимися внутри ПФ, про который еще неизвестно, к какомусегменту этот β-отрезок относится. -отр -отр [Он взял новенькую, золотисто-кожаную записную книжку ], [сел], -отр -отр [наклонил потный, со вздутыми жилами лоб], [сдвинул колени и не только -отр -отр написал адрес], [с мучительной тщательностью перечтя его], [поставив -отр забытую точку], [но еще набросал план]. (Набоков)

Рис. 14. Пример разметки типов отрезков на первом этапе сегментации.Свойство проективности сегментов, вытекающее из проективностиподчинительных и сочинительных связей внутри сегментов.

Общий принцип анализа на основе проективности сегментов, вытекающей из проективности подчинительных и сочинительных связей внутри сегментов. Рекурсивный алгоритм анализа рекурсивной сегментной структуры предложения, определяемый свойством проективности сегментов и рекурсивности иерархической линейной структуры вложений сегментов в сегменты.

1-ый этап – деление РП на α-отрезки и β-отрезки. Определение всех левых границ -сегментов - -отрезков – минимальных левых составляющих -сегментов.

2-ой этап сегментации – построение α-сегментов. Условная схема процедуры, визуализирующая работу с α- и β-отрезками при построении α-сегментов.Результат 1-ого этапа – членения предложения на α- и β-отрезки: j=[Она не понимала], 6=[о чем идет речь], k=[но догадывалась, 5=[что за газетным обрывком стоит неведомый ей мир,4=[который она мимоходом видела на старом щите], 3=[населенный улыбающимися широкоплечими мужчинами], i=[детьми], 2=[глядящими в неведомую взрослым даль],i+1=[женщинами], 1=[замершими у весенних роялей в тревожном ожидании счастья].

начало S j 6 k 5 4 3+i 2 +i+1 1 конец S

26

Рис. 15. Условная схема 2-ого этапа – процедуры формирования-сегментов для данного примера.Неоднозначности функций знаков препинания на примере запятой.

Функции запятой: омонимия запятой – граница vs. оператор сочинения. Возможная бифункциональность запятой; сегментация как определение функций знаков препинания (на примере запятой). Омонимия сегментной структуры предложения, порождаемая омонимией и синонимией знаков препинания и сочинительных союзов и неоднозначностями сочинительных и подчинительных связей. Грамматика этапов построения -сегментов – оборотов и придаточных предложений и -сегментов – простых-главных.Построение -сегментов.1. Определение левых границ -сегментов. 2. Рекурсивная процедура восстановления целостности -сегментов. Поиск правых границ -сегментов. Удлинение --сегментов – вводных и обособленных определительных оборотов;построение деепричастных оборотов; построение придаточных предложений. Анализ сочинения предикатов-сказуемых как важнейшая составляющая восстановления целостности - и -сегментов, разорванных вложениями -сегментов. Виды сказуемых – «морфологические» сказуемые и «неморфологическиепредикаты» (НМП).

Идеальная структура цепочки сказуемых в -сегменте – придаточном предложении. Поиск операторов – границ зон влияния предикатов придаточных предложений. Определение истинной функции найденных границ: дифференциация операторовсочинения сказуемых одного придаточного и операторов – границ придаточных.

Возможные наборы функций запятых в ситуации без разрывавложением и в ситуации разрыва сегмента вложением.

Возможные комбинаторные ситуации и соответствующие правила удлинения -сегментов.

1-ая группа: вводные и сравнительные оборотов с сочинением без разрыва и их удлинение.

2-ая группа – удлинение обособленных определительных оборотов (А*-об) и деепричастных оборотов (Dv-об) с разрывами, требующее анализа сочинения: 2.1. запреты присоединения -отрезков; 2.2.присоединение -отрезков по сочинению ниже уровня предикатов; 2.3.отсутствие сочинения иприсоединение -отрезков по подчинению.

27

3-я группа: -сегменты – придаточные предложения и их построение:

3.1. Удлинение придаточных, разорванных вложением, по тривиальной неполноте.-отрf=[ [Но], -отрn=[пожалуй], -отрm=[самым мучительным для него было то], -отр3=[что], -отр2= [догадываясь], -отр1=[какие идут о нем пересуды], -отрi=[сам он их не слышал]. (В.Набоков)

-отрf -отрn -отр3=[что] -сегм2 -сегм1 -отрi=[сам он их не слышал]

Рис.16. Условная схема построения структуры придаточного с разрывом, позволяющего элиминировать разрыв по тривиальной неполноте исходного -отрезка.

3.2. Придаточные без потенциального сочинения сказуемых. Их построение с использованием правил удлинения оборотов. Анализ возможности присоединения -отр до появления сказуемого, т.е. при отсутствии потенциального сочинения сказуемых, по сочинению и подчинению. (Она так усмехнулась, как будто я плоско пошутил, как будто города, где нам рок назначал свидания, на которые сам не являлся, эти платформы, и лестницы, и чуть-чуть бутафорские переулки были декорациями (В.Набоков))

3.3. Структуры придаточных, разорванных вложением, с анализом сочинения сказуемых.

Идеальная модель структуры придаточного предложения припотенциальном сочинении сказуемых. Виды сказуемых (морфологические и «неморфологические» предикаты. Построениесочинительных связей сказуемых как важнейшая составляющая процедуры восстановления целостности -сегментов, разорванных вложениями других -сегментов

Идеальная ситуация сочинения предикатов в -сегменте – придаточном предложении:-отрi = [...ПРЕДj очередной* в i)...] +(к=[...])+(к+1=[...])...+(n= [...ПРЕДj+1...])... ),

Этапы анализа сочинения предикатов.Этап первый: поиск границ зон влияния сказуемых для

каждых двух ближайших ПРЕДj и ПРЕДj+1

Этап второй: определение функции каждой найденной границы: для каждых двух очередных слева направо сказуемых - идентификация 1) ситуации сочинения сказуемых внутри

28

одного придаточного – с общим субъектом, 2) сочинения двух придаточных с сочинительным сокращением подчинительного союза 3) -отр, не относящегося к строимому придаточному. Поиск границ β-сегментов (простых-главных) с одновременным элиминированием их разрывов вложением -сегментов.

1. Элиминирование -сегментов. Поиск предикативных вершин (морфологических и неморфологических предикатов). Поиск границ зон влияния предикатов. Определение сочинительных функций границ: сочинение предикатов с сочинительным сокращением субъекта и 2.сочинение простых-главных предложений.

Омонимия сегментной структуры предложения, порождаемая омонимией и синонимией знаков препинания и сочинительных союзов и неоднозначностями сочинительных и подчинительных связей.

Тема 8. Моделирование внутренней структуры сегментов.Внутрисегментный анализ (ВА) - построение графов связей словвнутри уже построенных сегментов – в простых-главных ипридаточных предложениях, деепричастных и другихобособляемых оборотах – или внутри проективных фрагментов.Список синтагм как базис поиска связей. Синтагма: отношениеRN, связывающее в тексте два слова классов Xj и Yi: Xj RN Yi:где Xj и Yi заданы перечнем частей речи с определеннымиморфологическими характеристиками и минимальнымиграмматически необходимыми семантическими ограничениями.Контекстные условия реализации списочной синтагмы,задаваемые алгоритмами.Стратегия поиска контекстных ситуаций, определяющихархитектуру подчинительных связей внутри сегментов. Модульвнутрисегментного анализа (ВА).

Порядок работы алгоритмов ВА:1. поиск сказуемого и подлежащего, если они еще не найдены впроцессе сегментации. 2. заполнение словарно заданныхвалентностей (управление инфинитивом, Род., Дат., Вин.,Твор. падежами); 3. поиск хозяина ПГ; 4. поиск хозяевопределительных ИГ в Род.п. и наречий.

Границы рабочих зон, обеспечивающие проективностьстроимых связей: границы сегментов и границы проективныхфрагментов подчинительных и сочинительных связей,построенных к моменту обработки очередного слова.Иерархия приоритетов при построении внутрисегментной связи.

29

Стратегия построения связей в алгоритмах ВА:грамматически нормативные правила построения связи и случаи-исключения. Границы поиска – границы ПФ, если ПГ внутри ПФ,границы сегментов с исключением из рассмотрения линейныхотрезков внутри ПФ.

Алгоритм заполнения словарно заданных валентностей сучетом возможных альтернатив. Синтаксические конфигурации,определяющие особые случаи «перехвата» потенциального слугина основе словаря частных случаев (ЧС) с использованиемсемантических классов и\или списков лексем (например,различение Вин. прямого дополнения и Вин. обстоятельства: Онсмотрит фильм уже целый час)

Стратегия анализа на примере алгоритма поиска хозяинаПГ. Три типа предлогов по способности быть слугою глагола,прилагательного и существительного.

Поиск хозяина при потенциальной неоднозначностиподчинения. Нормативные случаи – хозяин ПГ – предикативнаявершина в зоне поиска. Поиск ситуаций – исключений изправила – подпрограмма «Частные случаи» (ЧС) и таблицасписков лексем – потенциальных хозяев определенныхпредлогов.

Базис подпрограммы ЧС – словарь линейных синтаксическихконфигураций –ситуаций-исключений.

Порядок работы – 3 этапа анализа: 1. обращение к ЧС и,если ситуация ЧС не найдена, → 2. обращение к таблицесписков хозяев - существительных, «перехватывающих»управление предиката ПГ и, если таковых не найдено, → 3.работа по общим правилам.

Уровень подробности задания контекстных ситуаций на каждой из трех ступеней анализа.

ТЕМАТИЧЕСКИЙ ПЛАН

Номер и названиераздела

Номер и название темы Кол-вочасов ауд.занятий

1. Введение в проблематику и обоснование архитектуры системы MARS

1. Введение в проблематику 22. Архитектура системы поверхностно-синтаксического анализа

2

2. Проблемы морфологического и морфо-синтаксического

3. Спектр проблем и этапы морфологического анализа (МА). Лингвистическое обеспечение

4

30

анализа морфанализа в системе MARS.4. Проблемы морфо-синтаксического анализа.

4

3. Моделирование сегментной структуры

5. Синтаксический анализ 46. Предсегментация 47. Сегментация предложения 6

4. Моделирование внутренней структуры сегментов

8. Моделирование внутренней структуры сегментов

2

Итого: 28

ЛИТЕРАТУРА

Обязательная литература.

Апресян Ю.Д. «Русский синтаксис в научном освещении» в контексте современной лингвистики. //Пешковский. А.М. Русский синтаксис в научном освещении. – М.: Языки русской культуры,2001. С. III-XXXIII.

Иорданская Л.Н. Автоматический синтаксический анализ.Т.II.Межсегментный синтаксический анализ – Новосибирск: Наука,Сибирское отд. АН СССР, 1967. С.7-75.

Иорданская Л.Н. Синтаксическая омонимия в русском языке (сточки зрения автоматического анализа и синтеза) // НТИ. Сер.2. № 5, 1967. С. 9-17.Кобзарева Т.Ю. Морфанализ in vivo // Труды Международнойконференции Диалог’2004. М.: Наука, 2004. С.286-291.Кобзарева Т.Ю. Принципы сегментационного анализа русскогопредложения // Московский лингвистический журнал. М.2004.Т.8 №1. С.31-80.Кобзарева Т.Ю. Рекурсивность и проективность сочинительных связей в русском тексте // Компьютерная лингвистика и интеллектуальные технологии. Труды Международной конференцииДиалог 2006, М.: Наука, 2006. – С. 223-229.Кобзарева Т.Ю. Иерархия задач поверхностно-синтаксического анализа русского предложения // НТИ, Сер.2, №1, 2007, с 23 –35.

Мельчук И.А. Автоматический синтаксический анализ. Том 1.Общие принципы. Внутрисегментный синтаксический анализ –

31

Новосибирск: Издательский отдел Сибирского отд. АН СССР,1964. С. 7-31, 39-62.

Мельчук И.А. Согласование, управление, конгруэнтность // ВЯ,№5, 1993. С. 16-57.

Падучева Е.В. О порядке слов в предложениях с сочинением:сочинительная проективность // НТИ Сер. 2, 1971, N3. С.14-20.Е.В. Падучева. О семантике синтаксиса. – М. 1974. С. 161-185;125-142Пешковский. А.М. Русский синтаксис в научном освещении. – М.: Языки русской культуры, 2001. С. 53-61; 34-52.Плунгян В.А. Общая морфология. Введение в проблематику. – М: УРСС, 2003. С. 12-36.Теньер Л. Основы структурного синтаксиса. — М.: Прогресс,1988. С. 22-35; 117-142; 250-256.

Дополнительная литература

Апресян Ю.Д., Богуславский И.М., Иомдин Л.Л.,Лазурский А.В., Перцов Н.В., Санников В.З.,Цинман Л.Л. Лингвистическое обеспечение системы ЭТАП-3 – М.: Наука, 1989. С. 3-8, 13-24.

Валгина Н.С. Актуальные проблемы современной русской пунктуации. – М.: Высшая школа, 2004. С. 20-91.Гладкий А.В. Синтаксические структуры естественного языка. М.,2007. 145 с.

Дашен Фр. Опыт теоретической интерпретации синтаксической омонимии // ВЯ №6,1964. С.3-16.

Долина И.Б. Гипотеза «глубины» и проблема «громоздкости» предложения // Инвариантные синтаксические значения и структура предложения (Доклады по конференции по теоретическим проблемам синтаксиса) – М.: Наука, 1969. С. 86-95.

Иомдин Л.Л. Автоматическая обработка текста на ЕЯ: модель согласования. – M.: Наука, 1990. 168 с.

32

Кобзарева Т.Ю, Афанасьев Р.Н. Универсальный модуль предсинтаксического анализа омонимии частей речи в русском языке на основе словаря диагностических ситуаций // Труды международного семинара Диалог’2002 Протвино 2002. Т.2. – С.258-268.

Кобзарева Т.Ю. Некоторые аспекты анализа сочинения при сегментации русского предложения // КИИ’2002. Труды восьмой национальной конференции по искусственному интеллекту с международным участием. М. Физматлит, 2002. Т.2. – С.192-198Кулагина О.С. Исследования по машинному переводу. — М.: Наука,1979. С.18-33, 118-131.Кулагина О.С. Об одном подходе к установлению отношений междупростыми предложениями в составе сложного при автоматическоманализе текстов. Математические вопросы кибернетики. 2001,№10, С. 15-34. Лаптева. О.А. Речевые возможности текстовой омонимии. – М.: УРСС, 2003. 21-32, 41-62.

Мельчук И.А. Русский язык в модели «Смысл – Текст». – М.: Языки русской культуры 1995. 682 с.Мельчук И.А. Поверхностный синтаксис русских числовыхвыражений. Wien: Wiener Slawischer Almanach 1985. С. 37-55,103-117, 220-250.Оре О. Графы и их применение. – М.: Мир, 1965. С. 15-40, 47-52.Падучева, Е.В. О способах представления синтаксическойструктуры предложения // ВЯ 1964, N 2. С. 99-113.Падучева Е.В. О порядке слов в предложениях с сочинением:сочинительная проективность // НТИ Сер.2, №3, 1971. С. 14-20.Пащенко Н.А. Об одном подходе к проблеме снятия омонимии приавтоматической обработке текстов на естественных языках //НТИ, № 4, 1967. С.13-18.Перцов Н.В., Старостин С.А. О синтаксическом процессоре,работающем на ограниченном объеме лингвистических средств //Труды международной конференции Диалог'1999, т.2. – Таруса:1999. С. 224-230.

33

Санников В.З. Русские сочинительные конструкции (Семантика.Прагматика. Синтаксис.). Автореферат диссертации. М. 1987.52 с..Санников В.З. Русские сочинительные конструкции. М. 1989. 266с.Санников В.З. Место распространенного определения по отношениюк определяемому слову в русской фразе // ВЯ, №1, 1963. С.124-130.Сиротинина. О.Б. Порядок слов в русском языке. – М: УРСС, 2001. С 34-41, 58-73.Тестелец Я.Г. Введение в общий синтаксис. – М. 2001. С. 156-216, 739-745.Шапиро А.В. Основы русской пунктуации – М.: Изд. АН, 1955. С. 147-324.Шварцкопф Б.С. Современная русская пунктуация. Система и ее функционирование. – М.: Наука,1988. С. 9-66, 120-126.

________________________________________________________________________

Т.Ю.Кобзарева Дешифровка линейной структуры русского предложения (Программа спецкурса для студентов-лингвистов)

T.Yu. KobzarevaDecoding of linear structure of the Russian sentence (the Program of a special course for students-linguists)

The program of the course for students-linguists consideringproblems of automatic surface-syntactic analysis of the Russian sentence is presented. Possible new ways of analysisorganization are studied: the special grammar defining the order and recursive structure of procedures of the parse enables to segment the sentence before modelling of internalstructure of segments and connections between them.

Automatic parse, Russian syntax, segmentation of the Russiansentence,homonymy of parts of speech, the automatic analysis of noun and prepositional phrases

34

Татьяна Юрьевна Кобзарева, канд. филол. наук, доцент кафедрытеоретической и прикладной лингвистики института лингвистикиРГГУ Tatyana Yuryevna Kobzareva, cand. phil., RSUH, Department of Theoretical and Applied linguistics of Institute of Linguistics

35