Системы автоматической обработки текста и...

20
Системы автоматической обработки текста и лингвистический автомат А.В. Луканин Автоматическая обработка естественного языка. Лекция 1

Upload: artem-lukanin

Post on 15-Jun-2015

292 views

Category:

Documents


3 download

TRANSCRIPT

Page 1: Системы автоматической обработки текста и лингвистический автомат

Системы автоматической обработки текста и

лингвистический автоматА.В. Луканин

Автоматическая обработка естественного языка. Лекция 1

Page 2: Системы автоматической обработки текста и лингвистический автомат

Автоматическая обработка текста (АОТ)

• 60–80‑х гг. прошлого века — эпоха романтических проектов– искусственный разум– высококачественный машинный перевод

• вторая половина 80-х гг. — вторая когнитивная революция– это не работает!– нужны грубые аналоги РМД —

лингвистичесие автоматы

Page 3: Системы автоматической обработки текста и лингвистический автомат

Лингвистический автомат

• это сбалансированный комплекс– аппаратных– программных– лингвистических– иногда лингводидактических средств– мощная база лингвистических данных и

знаний (БДЗ)

Page 4: Системы автоматической обработки текста и лингвистический автомат

Свойства ЛА (в идеале)

• полифункциональность• минимизация информационных потерь и

ослаблением эффекта отторжения естественного языка (ЕЯ) языком ЛА

• живучесть– опечатки– другой язык– частичная потеря памяти

• способность к дальнейшему развитию и усовершенствованию

• возможность подключения к различным каналам связи, в частности к сети Интернет

Page 5: Системы автоматической обработки текста и лингвистический автомат

Состав ЛА

• база данных и знаний;• блок ввода, распознавания и первичной

обработки печатного текста;• блок распознавания устной речи,

преобразующий аудио-сигнал в текст;• блок индексирования и аннотирования

текста;• блок машинного перевода;• блок вывода печатного текста;• блок, озвучивающий печатный текст;• средства человеко-машинной синергетики• блок управления

Page 6: Системы автоматической обработки текста и лингвистический автомат

Обработка текста в ЛА

• модуль ввода и коррекции– сканирование, предобработка

• лексико-морфологический анализатор + БДЗ– подстрочник

• синтаксический анализ (графы перехода, N-граммы)– именные и глагольные группы

• семантический анализ– перегруппировка, фильтрация

Page 7: Системы автоматической обработки текста и лингвистический автомат

Обработка текста в ЛА

• подблок порождения выходного текста – перевод– аннотация– индекс текста

• вывод пользователю– текст– текст + служебная информация– озвученный текст

Page 8: Системы автоматической обработки текста и лингвистический автомат

Человеко-машинная синергетика и самоорганизация

• ЛА должен предусматривать:– саморегуляцию– саморазвитие– устойчивость– живучесть

• практически отсутствует в современных системах АОТ

• саморазвитие обеспечивают:– искусственные нейронные сети– статистические методики

Page 9: Системы автоматической обработки текста и лингвистический автомат

Человеко-машинная синергетика и самоорганизация

• Саморегуляцию и устойчивость могут обеспечить:– уровневые построения систем АОТ;– модуль распознания языка, на котором

написан текст или его фрагменты;– подблок опознания формата текста и его

частей, а также определения их жанровой и тематической принадлежности;

– фреймовые модули и подблоки

Page 10: Системы автоматической обработки текста и лингвистический автомат

Уровневое построение систем АОТ и ЛА

• Процесс обработки разбивается на этапы

• Хорошо работает с подъязыками– инструкции– патенты

План выражения

План содержания

Графика

Звуковой сигнал

Морфология

Синтаксис

Семантика

Прагматика

Page 11: Системы автоматической обработки текста и лингвистический автомат

Опознание языка документа и нормализация входного текста

• документы могут содержать тексты на разных европейских языках – документы ЕС или НАТО

• восточные тексты часто содержат вставки на других языках– английский– кандзи– хирагана– катакана

• переход с языка на язык ни в том, ни в другом случае никак формально не отмечается

Page 12: Системы автоматической обработки текста и лингвистический автомат

Опознание языка документа и нормализация входного текста

• графические индикаторы– алфавит (иврит, японская хирагана)– отдельные специфические графемы

(например, сербские буквы Ђ, Љ)– диакритические знаки типа французских

«accents» (´, `, ^)

• диакритика может отсутствовать– английский или испанский?

• вероятностное отнесение текста к одному из заданных языков

ית ִר' ְב( ִע'かにゅう

Page 13: Системы автоматической обработки текста и лингвистический автомат

Опознание языка документа и нормализация входного текста

• индикаторы– частотные словоформы, при условии, что

каждая из них характеризует только один язык из имеющихся в наборе ЛА

• 5 наиболее частотных английских словоформ — the, of, and, to и in

• in также используется в немецком, итальянском и других языках

• транслитерация или арабица?

– перс. to تو (ты) и in این (этот)

Page 14: Системы автоматической обработки текста и лингвистический автомат

Опознание формата текста, жанра и тематической принадлежности

• только жёстко структурированные тексты

• спецификации или ведомости– большое число следующих друг за другом

таблиц

• патенты– заголовочные

шаблоны

• Страна патентования• Номер патента• Заявитель• Наименование темы• Характер НИР• Организация• Исполнитель

Page 15: Системы автоматической обработки текста и лингвистический автомат

Опознание тематической принадлежности не жёстко структурированного текста

• автоматический анализ вероятностного соотнесения ключевых слов и словосочетаний документа с заранее заданными словарными эталонами, привязанными к определённым стилям, предметным областям, подъязыкам или тематическим рубрикам

• атрибуция анонимных текстов– лексико-грамматические особенности и

стилевые манеры определённых авторов

Page 16: Системы автоматической обработки текста и лингвистический автомат

Сигналы появления в тексте новой ситуации

• изменение формата текста• статистически значимые отклонения в

использовании ключевых лексических единиц от их употреблений в предыдущих фрагментах текста

• «скучивание», т.е. резкий рост на определённом участке текста употребительности ключевых лексических единиц-нотонимов (известных в данной предметной области понятий)

• «скучивание» не зафиксированных в словаре терминов, выражающих новые научно-технические понятия - неонимы

Page 17: Системы автоматической обработки текста и лингвистический автомат

Средства обеспечения живучести ЛА

• задача представляется в виде множества частных задач– Р=(P1, Р2, ....., Pi, ..., Рk)

• если на (n+1)-м уровне автомата происходит отказ, то пользователю выдаются те результаты, которые получены системой на предыдущем n-м уровне

• искусственная нейронная сеть

Page 18: Системы автоматической обработки текста и лингвистический автомат

Сайт курса

http://scipeople.ru/course/1042/

Page 19: Системы автоматической обработки текста и лингвистический автомат

Вопросы к семинару

1. Архитектура лингвистического автомата.

2. Принципы функционирования модуля машинного перевода

3. Устройство обучающего лингвистического автомата

4. Два подхода к описанию обучающего лингвистического автомата

5. Лингвистический автомат и человеко-машинный обучающий диалог

Page 20: Системы автоматической обработки текста и лингвистический автомат

Литература к семинару

1. Пиотровская, К.Р. Обучающий лингвистический автомат: учебное пособие к спецкурсу «Основы квантитативной лингводидактики» / К.Р. Пиотровская — СПб.: Изд-во ИНТЕРЛАЙН, 2002. — С. 5–11.

2. Пиотровский, Р.Г. Лингвистический автомат (в исследовании и непрерывном обучении): 2-е изд., доп. и испр. / Р.Г. Пиотровский — СПб.: Изд-во РГПУ им. А. И. Герцена, 2008. — http://www.silod.org/txt/text2.zip — Главы 6–7.