Системы аннотирования и реферирования
TRANSCRIPT
Системы аннотирования и реферирования
А.В. Луканин
Автоматическая обработка естественного языка. Лекция 5
Свёртывание информации
• Задачи– Индексирование– Аннотирование– Реферирование– Конспектирование– Фрагментирование
• Это сжатие, или компрессия, текста первичного документа при его переработке в текст вторичного документа
Типы свертывания информации
• Аннотация– 150-200 знаков
– указательный реферат(indicative abstract)
• Реферат– 1500-2000 знаков
– информативный реферат(informative abstract)
Связный текст, который кратко выражает центральную тему или предмет какого-то документа
Связный текст, который кроме этого кратко выражает цель, применяемые методы и основные результаты описанного исследования или разработки
Типология• выдержки vs резюме
– фрагменты документа– заново переписанный текст
• общий vs основан на запросе vs ориентирован на пользователя– в одинаковой мере раскрыты все основные темы– основан на запросе “what are the causes of the
war?”– пользователь интересуется химией
• для новичка vs для эксперта– включение предпосылок– только новая информация
Типология• однодокументный vs многодокументный
– научная статья– сборник докладов конференции
• текстовая форма vs перечисление vs таблица vs структурированная информация– абзац– список основных положений, тезисов– числовая информация в таблице– с заголовками
• на языке документа vs на другом языке– одноязычное реферирование– перевод реферата
Исследователи
• Г.П.Лун• Г.Эдмундсон• В.Е.Берзон• И.П.Севбо• Э.Ф.Скороходько• Д.Г.Лахути• В.П.Леонов• Р.Г.Пиотровский
Направления
• Квазиреферирование– экстракция из первичных документов
наиболее информативных фрагментов и их склейка
• Собственно автоматическое реферирование– выделение существенной информации и
порождение новых текстов
Направления
• Квазиреферирование– анализ поверхностно-синтаксических
отношений в тексте
• Собственно автоматическое реферирование– обращение к глубинно-семантическим
процессам – экспериментальные исследования, до
широкой реализации еще не дошло
Экстрактивные методы
• Акцент на выделение характерных фрагментов – предложений
• С помощью фразовых шаблонов• И статистики• В большинстве методов применяется
модель линейных весовых коэффициентов – каждому блоку текста назначаются веса
• Самые «тяжёлые» блоки склеиваются
Расчёт веса блока текста
• Weight(U):= Location(U) + CuePhrase(U) + StatTerm(U) + AddTerm(U)
• Location: в начале, в середине или в конце; в вводной части или в заключении
• CuePhrase: «в заключение», «в данной статье», «согласно результатам анализа» и т.д.
Расчёт веса блока текста
• Weight(U):= Location(U) + CuePhrase(U) + StatTerm(U) + AddTerm(U)
• StatTerm: статистическая важностьавтоматическая индексация (например, метрика tf.idf)
• AddTerm: есть ли в блоке текста также термины из – заголовка, – колонтитула, – 1-го параграфа, – пользовательского запроса
Обобщенная архитектура реферирования без опоры на
знания
Билл Диксон поступил на работу в Procter & Gamble в 1994 году. В 1996 году он стал ее вице-президентом
Исходный текст
Измерениястатистической
важности
Сопоставление шаблонов
Расчёт частоты
Расчёт частоты
Выделе-ние
Выбор
Анализ Синтез
Статистические методы
Метод Луна (Luhn, 1958)
1. часто встречающиеся в тексте слова являются наиболее значимыми
2. чем больше часто встречающихся слов оказывается рядом, тем более существенную информацию содержит предложение
– Игнорируются смысловые связи между словами
+ простота анализа, однородность получаемых результатов
Метод ACSI-Matic (Assistant Chief of Staff for Intelligence)
• Метод Луна незначительно модифицирован
– N R NN R NNN R NN– 1 + 1/4 + 1 + 1/8 + 1= 3 + 3/8
• R – слова, частота встречаемости которых превосходит среднюю частоту слов в документе
• 10% предложений (<=20) – размер реферата
Метод ACSI-Matic (Assistant Chief of Staff for Intelligence)
• Предложения с большими весами подлежали включению в реферат
• Со средним — помечались как «резервные»• Если число встретившихся в двух
предложениях синонимов и близких по значению слов > 25% от общего количества слов в предложении, то такие предложения считались избыточными и вычеркивались
• В этом случае для реферата выбирались предложения из резерва
• Этот процесс длился до тех пор, пока не устранялись избыточные или не заканчивались «резервные» предложения
Метод Освальда
• Использовался инструмент, применяемый при индексировании:
• Предложения анализируемого текста сопоставлялись с заданными перечнями слов, объединёнными по смыслу
• Отбирались предложения с наибольшим количеством совпавших с перечнем слов
• Отобранные предложения далее обрабатывались по методу Г. Луна
Метод Освальда
• выявление слов, отражающих содержание документа;
• выявление «мультитермов», т.е. устойчивых словосочетаний, при условии, что они встречаются в тексте чаще одного раза;
• выявление предложений с двумя и более мультитермами;
• расположение мультитермов в порядке частоты встречаемости;
• отбор предложений с наибольшим количеством основных слов и мультитермов
Методы статистических ассоциаций
• Л. Дойл и М. Квиллиан• применили для отражения содержания
документов ассоциативные методы создания семантически связанных групп (пучков) терминов (word clusters)
• совместная встречаемость терминов в предложениях
• В реферат включаются не только основные термины, но и другие элементы текста
Ассоциативные карты Л. Дойла
• Сначала создаётся исходная матрица (ключевые слова текста) и матрица взаимосвязанных элементов.
• Использовав коэффициент корреляции Пирсона, Л. Дойл вычислил коэффициенты подобия между терминами отдельных документов
• Реферат представлял собой реферат телеграфного стиля (короткие назывные предложения или набор ключевых слов (дескрипторов)
Семантические картыМ. Квиллиана
• М. Квиллиан предложил использовать не ассоциативные карты, составленные на основе статистических показателей, а семантические карты.
• При этом учитывались взаимосвязи не между отдельными словами, а между информативными концептами
Экстрактивные методы
• Дистрибутивный метод Эрла (Earl)
• Метод автоматического реферирования документов (Automatic Document Abstracting Method — ADAM)
• Дж. Раш, Р. Сальвадор и А. Замора «Метод отказа от предложений» (method for rejecting sentenses)
• Метод текстовых связей
Методы с опорой на знания
Два основных подхода метода формирования краткого изложения