презентация (quasi synonyms, вмк 25.10.2011)
DESCRIPTION
TRANSCRIPT
АВТОМАТИЧЕСКОЕ ИЗВЛЕЧЕНИЕ СУЩНОСТЕЙ НА
ОСНОВЕ СТРУКТУРЫ НОВОСТНОГО КЛАСТЕРА
Автор: Алексеев Алексей Александрович Научный руководитель: Лукашевич Наталья Валентиновна
ОБРАБОТКА ПОТОКОВ НОВОСТЕЙ
Новостные сервисы (30-40 тыс. документов в день)
Кластеризация новостей на одну тему – новостной кластер (вхождения слов)
Удаление дубликатов
Рубрикация по тематическим рубрикам
Автоматическое аннотирование
Определение новизны
Извлечение информации
Многие операции выполняются на основе пословного представления
24.10.2011
2
ПРОБЛЕМЫ ПОСЛОВНОГО ПРЕДСТАВЛЕНИЯ
Одна сущность названа посредством цепочки слов (многословным выражением)
В кластере используется много разных наименований одной и той же сущности
Авиабаза США в Киргизии:
база Манас, авиабаза Манас, Манас,
база в международном аэропорту Манас,
база США, американская авиабаза
Проблемы:
Определение границ кластера
Автоматическое порождение аннотации
Определение новизны информации
Выделение подкластеров и др. 24.10.2011
3
ПРИРОДА ВОЗНИКНОВЕНИЯ ВАРИАТИВНОСТИ - 1
Цель использования: Референция (отнесенность языкового выражения к одному
и тому же объекту действительности) 3 февраля президент Киргизии Курманбек Бакиев заявил о решении правительства прекратить деятельность авиабазы на территории республики… Президент не стал скрывать, что экономические резоны стали главной причиной побудившей правительство страны принять такое решение.
Перефразирование (изменение текста без изменения смысла - рерайтинг)
Судьбу авиабазы США в "Манасе" решит парламент Киргизии. Парламент Киргизии в четверг примет окончательное решение о судьбе авиабазы США.
Лексическая связность (обеспечение связности текста посредством известных взаимоотношений слов) 24.10.2011
4
ПРИРОДА ВОЗНИКНОВЕНИЯ ВАРИАТИВНОСТИ - 2
Привязка к контексту: Общеизвестно (Киргизия – Киргизстан)
Выводится из контекста В декабре 2006 года 46-летний водитель топливозаправщика киргизской фирмы, занимающейся обслуживанием аэропорта "Манас", Александр Иванов, был расстрелян в упор охранником авиабазы Закари Хатфилдом на КПП при въезде на перрон аэропорта"… Американский военный, несмотря на неоднократные требования киргизского МИДа, также был тайно вывезен с территории страны и до сих пор не предстал перед судом.
Одинаково по смыслу (синонимы) или близко по смыслу (часть-целое, род-вид)
Власти Киргизии не опасаются, что решение о закрытии базы может привести к обострению взаимоотношений с США и западноевропейским государствами. "Никаких политических разногласий у нас с США нет."
24.10.2011
5
МЕТОДЫ УСЛОЖНЕНИЯ ПРЕДСТАВЛЕНИЯ
Применение тезаурусов Синонимы
Словосочетания
Лексические цепочки
Но: все заранее описать невозможно
Разрешение кореферентности Именованные объекты
Полное и частичное наименование
Разрешение кореферентности
Но: вариативность наименования относится не только к именованным сущностям
24.10.2011
6
МНОГОСЛОВНЫЕ ВЫРАЖЕНИЯ И КВАЗИСИНОНИМЫ
Многословные выражения, отдельные части которых зачастую не отражают смысла всего выражения («Российская Федерация», «Авиабаза Манас»)
Квазисинонимы – слова или выражения, которые не являются синонимами в общем случае, но могут таковыми являться к некотором контексте
Например, слова «ПРЕЗИДЕНТ» и «ДИКТАТОР» не являются синонимами в общем случае, но в контексте некоторого специфичного текста могут таковыми являться
24.10.2011
7
ИДЕЯ ИССЛЕДОВАНИЯ
Новостной кластер содержит множество документов на одну и ту же тему
Рерайтеры специально переписывают тексты, используя синонимы и близкие по смыслу слова
Задача: на основе структуры кластера
извлечь многословные выражения, обозначающие основные сущности кластера,
найти слова и словосочетания, являющиеся квазисинонимами в рамках данного кластера
Метод:
Свойства связного текста - глобальная связность
Новостной кластер (посвящен одной теме) 24.10.2011
8
ПЛАН ДОКЛАДА
Постановка задачи выделения многословных выражений и квазисинонимов
Обзор существующих методов
Гипотеза и ее проверка
Предлагаемый подход и его оценка
Заключение 24.10.2011
9
Context-based Quasi-Synonym Extraction - 1 University of Massachusetts, USA, 2009
Van Dang, Xiaobing Xue and W. Bruce Croft
Извлечение квазисинонимов из текстового корпуса
Метод основан на анализе контекстов употребления кандидатов в квазисинонимы (как и большинство существующих методов)
Различия методов: какой контекст рассматривать и с помощью какой метрики вычислять меру схожести
В работе предлагается метод акцентирующийся на качестве, а не на типе контекста
Например слова-кандидаты «пистолет» и «ружьё» и контекстные слова «целиться» и «положить»:
“.. положить пистолет в сумку ..“ – “.. положить ружье в сумку..”
“.. целиться из пистолета .. “ – “.. целиться из ружья ..” 24.10.2011
10
Чем чаще слово употребляется в различных контекстах, тем меньше контекстной информации оно несёт:
W – количество слов с данным контекстом
Z – нормализующий параметр
Контекст слова – n-грамма слов вокруг него
Предложено два варианта вычисления квазисинонимичности выражений: с начислением «штрафных» баллов за несовпадающий контекст и без
Идея – чем больше контекстов лучшего качества выражения разделяют, тем выше их квазисинонимичность
24.10.2011
11
WZсP
11)(
Context-based Quasi-Synonym Extraction - 2 University of Massachusetts, USA, 2009
Van Dang, Xiaobing Xue and W. Bruce Croft
Extracting Paraphrases from a Parallel Corpus - 1 Columbia University, USA, 2001
Regina Barzilay and Kathleen R. McKeown
Задача – построение корпуса парафраз для дальнейшего его применения в различных областях
Сравнении различных переводов одного и того же текста
Использовались различные переводы различных романов на английский язык (всего 11 текстов)
Препроцессинг: выравнивание предложений текстов (на основе одинаковых слов, которых было 42%, P = 92%)
Всего получилось 44.562 предложения (1.798.526 слов)
Алгоритм взаимного обучения (co-training)
24.10.2011
12
Шаблоны (паттерны) парафраз: последовательность частей речи с пометками о повторении слов:
Emma burst into tears and he tried to comfort her, saying things to make her smile.
Emma cried, and he tried to console her, adorning his words with puns.
left =“VB1 TO2 ” (“tried to”) right =“PRP$3 ,4 ” (“her ,”)
Инициализация алгоритма: шаблоны контекстов одинаковых слов
В качестве отрицательных примеров – остальные сочетания со словами предложения ((n-1) + (m-1))
После извлечения шаблонов опять извлекаются парафразы и алгоритм зацикливается
24.10.2011
13
Extracting Paraphrases from a Parallel Corpus - 2 Columbia University, USA, 2001
Regina Barzilay and Kathleen R. McKeown
Длина контекста – 3 слова (но также запоминаются более короткие контексты, так как они иногда лучше)
В рамках оценки результатов проведен анализ согласованности асессоров при определении парафраз
Согласованность асессоров:
68% без контекстов 97% с контекстами
Точность:
~85% без контекстов ~92% с контекстами
Полнота: 69%
Синонимы( 35%) гиперонимы (32%) сёстры (18%) без связи (10%) другие типы связи (5%)
24.10.2011
14
Extracting Paraphrases from a Parallel Corpus - 3 Columbia University, USA, 2001
Regina Barzilay and Kathleen R. McKeown
ПЛАН ДОКЛАДА
Постановка задачи выделения многословных выражений и квазисинонимов
Обзор существующих методов
Гипотеза и ее проверка
Предлагаемый подход и его оценка
Заключение 24.10.2011
15
ГЛОБАЛЬНАЯ СВЯЗНОСТЬ ТЕКСТА
Van Dijk и гипотеза глобальной связности (1985)
Связный текст имеет одну главную тему и эта тема может быть выражена как пропозиция
Тема целого текста раскрывается в тексте посредством локальных тем
Каждое предложение текста соответствует некоторой теме текста
Механизм глобальной связности позволяет контролировать локальный связки и переходы
24.10.2011
16
ЛЕКСИЧЕСКАЯ СВЯЗНОСТЬ vs.
ГЛОБАЛЬНАЯ СВЯЗНОСТЬ
Связный текст обладает лексической связностью: лексические и семантические повторы
Лексическая связность – инструмент глобальной связности
Чем больше две сущности упоминаются в одних и тех же предложениях текста, тем более важно отношение между ними для содержания текста
Если сущности часто упоминаются, но мало встречаются в одних и тех же предложениях текста, то возможно они связаны между собой по смыслу (синоним, род-вид, часть-целое)
24.10.2011
17
АНАЛИЗ И ПРОВЕРКА ГИПОТЕЗЫ - 1
Проверка предположений была произведена с помощью Тезауруса русского языка РуТез
В качестве правильных примеров квазисинонимии рассматривались объекты, связанные в Тезаурусе
Различные типы связи рассматривались отдельно
Две группы по частям речи:
СУЩ. + СУЩ. # ПРИЛ. + СУЩ.
Для каждой пары объектов вычислялись количество вхождений в одни и те же предложения (Fsegm) и в соседние (Fsent)
24.10.2011
18
АНАЛИЗ И ПРОВЕРКА ГИПОТЕЗЫ - 2 19
Тип связи Fsegm / Fsent Число пар
Синонимы (СУЩ + СУЩ) 0.309 31
Синонимы (ПРИЛ + СУЩ) 0.491 53
Род – Вид (СУЩ + СУЩ) 1.130 88
Род – Вид (ПРИЛ + СУЩ) 1.471 28
Часть – Целое (СУЩ + СУЩ) 0.779 58
Часть – Целое (ПРИЛ + СУЩ) 1.580 29
Без связи по Тезаурусу 1.440 21483
НОВОСТНЫЕ КЛАСТЕРЫ И СВОЙСТВА СВЯЗНОГО ТЕКСТА
Кластер – не является связным текстом, но имеет тему кластера
статистические особенности усиливаются
Извлечение Многословных выражений,
Совокупностей квазисинонимов
Пример: Новостной кластер от 19.02.2009
Тема: Денонсация соглашения между Киргизией и США по поводу авиабазы США, расположенной в международном аэропорту Манас
195 новостных документов 24.10.2011
20
ПЛАН ДОКЛАДА
Постановка задачи выделения многословных выражений и квазисинонимов
Обзор существующих методов
Гипотеза и ее проверка
Предлагаемый подход и его оценка
Заключение 24.10.2011
21
ПРЕДЛАГАЕМЫЙ ПОДХОД
Комбинация классического подхода (анализ контекстов) с гипотезой совместной встречаемости
4 типа контекстов: через глагол (AV); рядом (Near); не рядом (NN); в соседних предложениях (NS)
Основное правило:
NS > 2 * (AV + Near + NN)
Выделение квазисинонимов проходит в 3 этапа
«Классическая» составляющая: использование жестких контекстов (2 слова до и после сущности)
Использование формальных сходств сущностей-кандидатов
24.10.2011
22
ПРЕДЛАГАЕМЫЙ ПОДХОД: ЭТАПЫ
Этап 1: Совместное использование «жестких» контекстов и формальных сходств сущностей-кандидатов, таких как:
Метрики схожести (использовался простой вариант - одинаковые начала слов объектов)
«Вложенные» объекты (все слова одного объекта встречаются в другом)
«Пересекающиеся» объекты (слова объектов имеют пересечения)
Этап 2: Использование только «жестких» контекстов
Этап 3: Использование только формальных сходств
Каждый этап является итеративным (до тех пор, пока происходит хотя бы одна склейка)
24.10.2011
23
РЕЗУЛЬТАТЫ РАБОТЫ АЛГОРИТМА НА КЛАСТЕРЕ ПРИМЕРЕ
Авиабаза: авиабаза Манас, база, база Манас, военный база, закрытие базы
Денонсация соглашения с США: денонсация соглашения, денонсация договора, расторжение договора, соглашение, денонсация
Парламент Киргизии: Киргизский парламент, парламент Кыргызстана, парламент, киргизский, парламентский, парламентарий;
Манас: аэропорт Манас, Международный аэропорт Манас
24.10.2011
24
ТЕСТИРОВАНИЕ МЕТОДА
Оценка результата нетривиальна: высокая степень субъективности и низкая согласованность экспертов
«Человеческое» восприятие не самое главное – важна применимость в других задачах
Исследована применимость к задаче аннотирования
11 новостных кластеров, 2-4 ручные аннотации к каждому
Оценка содержания аннотаций методом «Пирамиды»
Ручное выделение «информационных единиц» – фактов
Итоговая оценка:
24.10.2011
25
кластераданногоИЕвсехвес
ИЕнайденныхвес
____
__
Maximal Marginal Relevance (MMR)
Известный метод для запрос-ориентированного аннотирования (1998)
Итеративный метод
Ранжирование предложений-кандидатов:
Максимизировать сходство с запросом
Минимизировать сходство с уже отобранными в аннотацию предложениями
Пусть: Q – запрос к системе, S – множество предложений кандидатов, s – рассматриваемое предложение кандидат, Е – множество выбранных предложений. Тогда:
24.10.2011
26
j
EsSs
ssSimQsSimMMRj
,max1,maxarg 21
Аннотирование на основе тематического представления текста
Построение тематического представления - разбиение понятий на группы близких по смыслу понятий (Тезаурус)
Оперируем не отдельными словами, а набором близких по смыслу слов, используемых именно в этом тексте
Аннотация состоит из заголовка и нескольких предложений (из разных документов кластера)
Заголовок – один из заголовков документов (по весу)
Основная идея: включение как уже упомянутого, так и нового тематического узла при отборе предложения
Выбирается предложение: Имеющее наибольший вес Содержащее уже упомянутый тематический узел Содержащее новый тематический узел
24.10.2011
27
РЕЗУЛЬТАТЫ 28
Название метода Оценка
M
M
R
MMR по словам 0,557
MMR по квазисинонимам 0,601
MMR по тематическим узлам тезауруса 0,537
Ан.
по
Т.У.
Аннотирование по тематическим узлам
(узлы на основе тезауруса) 0,560
Аннотирование по тематическим узлам
(узлы на основе рядов квазисинонимов, 30 штук) 0,669
Аннотирование по тематическим узлам
(узлы на основе рядов квазисинонимов, 50 штук) 0,665
ЗАКЛЮЧЕНИЕ
Поставлена задача выделения квазисинонимов в текстах
Дан обзор существующих подходов в данной области
Выдвинута и проверена гипотеза о скрытых взаимосвязях в реальных текстах
На основании гипотезы предложен новый подход для выделения квазисинонимов
Предложенный подход протестирован в контексте применимости к важной задаче автоматической обработки текста – автоматическое аннотирование
В дальнейшем предполагается создание комплексного метода, комбинирующего текущие ряды квазисинонимов с информацией из тезауруса 24.10.2011
29