Системы автоматической обработки текста и...
TRANSCRIPT
Системы автоматической обработки текста и
лингвистический автоматА.В. Луканин
Автоматическая обработка естественного языка. Лекция 1
Автоматическая обработка текста (АОТ)
• 60–80‑х гг. прошлого века — эпоха романтических проектов– искусственный разум– высококачественный машинный перевод
• вторая половина 80-х гг. — вторая когнитивная революция– это не работает!– нужны грубые аналоги РМД —
лингвистичесие автоматы
Лингвистический автомат
• это сбалансированный комплекс– аппаратных– программных– лингвистических– иногда лингводидактических средств– мощная база лингвистических данных и
знаний (БДЗ)
Свойства ЛА (в идеале)
• полифункциональность• минимизация информационных потерь и
ослаблением эффекта отторжения естественного языка (ЕЯ) языком ЛА
• живучесть– опечатки– другой язык– частичная потеря памяти
• способность к дальнейшему развитию и усовершенствованию
• возможность подключения к различным каналам связи, в частности к сети Интернет
Состав ЛА
• база данных и знаний;• блок ввода, распознавания и первичной
обработки печатного текста;• блок распознавания устной речи,
преобразующий аудио-сигнал в текст;• блок индексирования и аннотирования
текста;• блок машинного перевода;• блок вывода печатного текста;• блок, озвучивающий печатный текст;• средства человеко-машинной синергетики• блок управления
Обработка текста в ЛА
• модуль ввода и коррекции– сканирование, предобработка
• лексико-морфологический анализатор + БДЗ– подстрочник
• синтаксический анализ (графы перехода, N-граммы)– именные и глагольные группы
• семантический анализ– перегруппировка, фильтрация
Обработка текста в ЛА
• подблок порождения выходного текста – перевод– аннотация– индекс текста
• вывод пользователю– текст– текст + служебная информация– озвученный текст
Человеко-машинная синергетика и самоорганизация
• ЛА должен предусматривать:– саморегуляцию– саморазвитие– устойчивость– живучесть
• практически отсутствует в современных системах АОТ
• саморазвитие обеспечивают:– искусственные нейронные сети– статистические методики
Человеко-машинная синергетика и самоорганизация
• Саморегуляцию и устойчивость могут обеспечить:– уровневые построения систем АОТ;– модуль распознания языка, на котором
написан текст или его фрагменты;– подблок опознания формата текста и его
частей, а также определения их жанровой и тематической принадлежности;
– фреймовые модули и подблоки
Уровневое построение систем АОТ и ЛА
• Процесс обработки разбивается на этапы
• Хорошо работает с подъязыками– инструкции– патенты
План выражения
План содержания
Графика
Звуковой сигнал
Морфология
Синтаксис
Семантика
Прагматика
Опознание языка документа и нормализация входного текста
• документы могут содержать тексты на разных европейских языках – документы ЕС или НАТО
• восточные тексты часто содержат вставки на других языках– английский– кандзи– хирагана– катакана
• переход с языка на язык ни в том, ни в другом случае никак формально не отмечается
Опознание языка документа и нормализация входного текста
• графические индикаторы– алфавит (иврит, японская хирагана)– отдельные специфические графемы
(например, сербские буквы Ђ, Љ)– диакритические знаки типа французских
«accents» (´, `, ^)
• диакритика может отсутствовать– английский или испанский?
• вероятностное отнесение текста к одному из заданных языков
ית ִר' ְב( ִע'かにゅう
Опознание языка документа и нормализация входного текста
• индикаторы– частотные словоформы, при условии, что
каждая из них характеризует только один язык из имеющихся в наборе ЛА
• 5 наиболее частотных английских словоформ — the, of, and, to и in
• in также используется в немецком, итальянском и других языках
• транслитерация или арабица?
– перс. to تو (ты) и in این (этот)
Опознание формата текста, жанра и тематической принадлежности
• только жёстко структурированные тексты
• спецификации или ведомости– большое число следующих друг за другом
таблиц
• патенты– заголовочные
шаблоны
• Страна патентования• Номер патента• Заявитель• Наименование темы• Характер НИР• Организация• Исполнитель
Опознание тематической принадлежности не жёстко структурированного текста
• автоматический анализ вероятностного соотнесения ключевых слов и словосочетаний документа с заранее заданными словарными эталонами, привязанными к определённым стилям, предметным областям, подъязыкам или тематическим рубрикам
• атрибуция анонимных текстов– лексико-грамматические особенности и
стилевые манеры определённых авторов
Сигналы появления в тексте новой ситуации
• изменение формата текста• статистически значимые отклонения в
использовании ключевых лексических единиц от их употреблений в предыдущих фрагментах текста
• «скучивание», т.е. резкий рост на определённом участке текста употребительности ключевых лексических единиц-нотонимов (известных в данной предметной области понятий)
• «скучивание» не зафиксированных в словаре терминов, выражающих новые научно-технические понятия - неонимы
Средства обеспечения живучести ЛА
• задача представляется в виде множества частных задач– Р=(P1, Р2, ....., Pi, ..., Рk)
• если на (n+1)-м уровне автомата происходит отказ, то пользователю выдаются те результаты, которые получены системой на предыдущем n-м уровне
• искусственная нейронная сеть
Сайт курса
http://scipeople.ru/course/1042/
Вопросы к семинару
1. Архитектура лингвистического автомата.
2. Принципы функционирования модуля машинного перевода
3. Устройство обучающего лингвистического автомата
4. Два подхода к описанию обучающего лингвистического автомата
5. Лингвистический автомат и человеко-машинный обучающий диалог
Литература к семинару
1. Пиотровская, К.Р. Обучающий лингвистический автомат: учебное пособие к спецкурсу «Основы квантитативной лингводидактики» / К.Р. Пиотровская — СПб.: Изд-во ИНТЕРЛАЙН, 2002. — С. 5–11.
2. Пиотровский, Р.Г. Лингвистический автомат (в исследовании и непрерывном обучении): 2-е изд., доп. и испр. / Р.Г. Пиотровский — СПб.: Изд-во РГПУ им. А. И. Герцена, 2008. — http://www.silod.org/txt/text2.zip — Главы 6–7.