Итерационное извлечение шаблонов описания событий по...

28
Итерационное извлечение шаблонов описания событий по новостным кластерам Котельников Дмитрий Сергеевич МГУ им. М.В. Ломоносова Лукашевич Наталья Валентиновна НИВЦ МГУ им. М.В. Ломоносова

Upload: vadin

Post on 23-Jan-2016

58 views

Category:

Documents


0 download

DESCRIPTION

Итерационное извлечение шаблонов описания событий по новостным кластерам. Котельников Дмитрий Сергеевич МГУ им. М.В. Ломоносова Лукашевич Наталья Валентиновна НИВЦ МГУ им. М.В. Ломоносова. План. Задача извлечения информации из текста Извлечение сущностей - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: Итерационное извлечение шаблонов описания событий по новостным кластерам

Итерационное извлечение шаблонов описания событий по новостным кластерам

Котельников Дмитрий СергеевичМГУ им. М.В. Ломоносова

Лукашевич Наталья ВалентиновнаНИВЦ МГУ им. М.В. Ломоносова

Page 2: Итерационное извлечение шаблонов описания событий по новостным кластерам

План

• Задача извлечения информации из текста• Извлечение сущностей• Итерационное извлечение шаблонов

описания событий• Оценка предложенного подхода и

результаты

Page 3: Итерационное извлечение шаблонов описания событий по новостным кластерам

Извлечение информации из текста

• Выделение из текста на естественном языке структурированной информации

• «МВФ предоставит Белоруссии кредит на сумму $2,46 млрд»– Кредитор: МВФ– Получатель: Белоруссия– Сумма: $2,46 млрд

Page 4: Итерационное извлечение шаблонов описания событий по новостным кластерам

Подходы к созданию систем• Системы основанные на знаниях

(«инженерный подход»)– Правила выделения фактов из текста

составляются человеком вручную– Высокая трудоемкость создания– Сложность адаптации к извлечению новых фактов

• Автоматически обучающиеся системы– Правила выделения событий формируются

автоматически– Необходимость создания размеченной

коллекции

Page 5: Итерационное извлечение шаблонов описания событий по новостным кластерам

Итерационный метод• S. Brin “Extracting Patterns and Relations from the

World Wide Web”• Обучение начинается с небольшого количества

размеченных примеров

• <LI><B>First Men in the Moon</B>by H. G. Wells (• <LI><B>title</B> by author (

Извлечение шаблонов

Извлечение фактов

Page 6: Итерационное извлечение шаблонов описания событий по новостным кластерам

Постановка задачи

• Разработать способ автоматического формирования шаблонов для системы извлечения информации из текста.

• Проверить качество работы системы при обучении на небольшом количестве размеченных примеров

• Новостные кластеры — источник разнообразных описаний событий

Page 7: Итерационное извлечение шаблонов описания событий по новостным кластерам

План

• Задача извлечения информации из текста• Извлечение сущностей• Итерационное извлечение шаблонов

описания событий• Оценка предложенного подхода и

результаты

Page 8: Итерационное извлечение шаблонов описания событий по новостным кластерам

Извлечение сущностей

• Виды извлекаемых сущностей:– обозначения даты или времени:

«5 августа 2006 года»«05.07.1988»

– числовые выражения:«5,5 миллиардов долларов»«пятьдесят процентов»

– именованные объекты:«Международный валютный фонд»«В.В. Путин»

Page 9: Итерационное извлечение шаблонов описания событий по новостным кластерам

Извлечение сущностей

• Для выделения именованных сущностей использовался упрощенный алгоритм

• Президент Дмитрий Медведев поручил правительству Российской Федерации не выполнять протокол

Page 10: Итерационное извлечение шаблонов описания событий по новостным кластерам

Извлечение сущностей

• Анализ совместной встречаемости сущностей в предложениях:– Россия готова участвовать в кредите ЕС Киеву

на энергоцели - заявил Путин;– В ответ на жесткую позицию России, которая

заявила, что не будет выполнять подписанный Киевом протокол по транзиту газа из-за внесенных в него оговорок, ЕС и Украина говорят, что согласны рассмотреть претензии Москвы»

Page 11: Итерационное извлечение шаблонов описания событий по новостным кластерам

Поиск синонимичных сущностей

• Один объект может описываться различными выражениями:– «МВФ»– «Международный валютный фонд»– «Совет директоров МВФ»– «Исполнительный совет Международного

валютного фонда»

Page 12: Итерационное извлечение шаблонов описания событий по новостным кластерам

Поиск синонимичных сущностей

• Совпадение контекстов употребления слова:– Заместитель главы Газпрома Александр

Медведев заявил, что поставки российского газа в Евросоюз через территорию Украины могут быть возобновлены.

– Поставки российского газа в Европу через территорию Украины могут быть возобновлены.

Page 13: Итерационное извлечение шаблонов описания событий по новостным кластерам

Поиск синонимичных сущностей

• Контексты через глагол:– Президент Дмитрий Медведев поручил

правительству Российской Федерации не выполнять протокол до тех пор, пока в нем не будут сняты противоречия.

– Президент России Дмитрий Медведев поручил правительству Российской Федерации не выполнять протокол до тех пор, пока в нем не будут сняты противоречия.

Page 14: Итерационное извлечение шаблонов описания событий по новостным кластерам

План

• Задача извлечения информации из текста• Извлечение сущностей• Итерационное извлечение шаблонов

описания событий• Оценка предложенного подхода и

результаты

Page 15: Итерационное извлечение шаблонов описания событий по новостным кластерам

Исходные данные

• Новостной кластер на заданную тему, в котором указаны все участники события:– Покупатель: «Microsoft»– Товар: «Yahoo»– Сумма: «44,6 млрд»

Page 16: Итерационное извлечение шаблонов описания событий по новостным кластерам

Метод формирования шаблонов

Известные факты

Поиск сущностей в предложениях

кластера

Извлечение шаблонов

Применение шаблонов

Page 17: Итерационное извлечение шаблонов описания событий по новостным кластерам

Метод формирования шаблонов

1. «Microsoft намерена купить Yahoo за 44,6 млрд долларов»

2. «Компания Microsoft собирается приобрести поисковую систему Yahoo за 44,6 миллиардов долларов»

Page 18: Итерационное извлечение шаблонов описания событий по новостным кластерам

Метод формирования шаблонов

Известные факты

Поиск сущностей в предложениях

кластера

Извлечение шаблонов

Применение шаблонов

Page 19: Итерационное извлечение шаблонов описания событий по новостным кластерам

Значимые слова

• Присутствие некоторых слов в предложении может указывать на наличие в нем извлекаемого события

• «МВФ предоставил Белоруссии кредит на $2,46 млрд»

• «МВФ дал Белоруссии $2,46 млрд»

Page 20: Итерационное извлечение шаблонов описания событий по новостным кластерам

Извлечение шаблонов

• Выделяется непустая подстрока лемм между двумя различными слотами

• Шаблон должен обязательно содержать глагол и значимое слово:– «Microsoft намерена купить Yahoo за 44,6

млрд долларов»– [Entity:Buyer:[Им]] НАМЕРИТЬ {КУПИТЬ} [Entity:

Goods:[Дт]] ЗА [Number:Amount]

Page 21: Итерационное извлечение шаблонов описания событий по новостным кластерам

Метод формирования шаблонов

Известные факты

Поиск сущностей в предложениях

кластера

Извлечение шаблонов

Применение шаблонов

Page 22: Итерационное извлечение шаблонов описания событий по новостным кластерам

План

• Задача извлечения информации из текста• Извлечение сущностей• Итерационное извлечение шаблонов

описания событий• Оценка предложенного подхода и

результаты

Page 23: Итерационное извлечение шаблонов описания событий по новостным кластерам

Эксперименты• Была размечена коллекция из 84 новостных

кластеров.• Пример разметки:– Кредитор : МВФ ; Совет директоров МВФ ; совета

директоров Международного валютного фонда ; Международный валютный фонд ; Исполнительный совет директоров МВФ ; СД МВФ

– Сумма : 2 , 5 миллиардов долларов ; 2 , 46 млрд долл ;

– Получатель : Минск ; Белоруссии ; Беларуси ; власти Белоруссии

Page 24: Итерационное извлечение шаблонов описания событий по новостным кластерам

Эксперименты• Результаты перекрестной проверки при

разделении на 4 части:

№ Точность Полнота F-мера1 0,97 0,41 0,572 0,95 0,55 0,693 0,98 0,35 0,514 0,92 0,71 0,8Среднее 0,95 0,5 0,65

Page 25: Итерационное извлечение шаблонов описания событий по новостным кластерам

Эксперименты• Сравнение с системой, основанной на

инженерном подходе для факта получения кредита

Шаблонов Точность Полнота F-мера1 12 1 0,07 0,132 183 0,97 0,34 0,53 316 0,94 0,65 0,784 325 0,94 0,65 0,785 330 0,94 0,65 0,78ИП 20 0,95 0,24 0,38

Page 26: Итерационное извлечение шаблонов описания событий по новостным кластерам

Примеры шаблонов• [Entity:Creditor:[Им]] <ПРЕДОСТАВИТЬ>

[Entity:Debtor:[Рд, Дт, Пр]] {КРЕДИТ}• [Entity:Creditor:[Вн, Им]] <ВЫДЕЛИТЬ>

[Entity:Debtor:[Им, Рд]] {КРЕДИТ}• [Entity:Debtor:[Им]] <ПОЛУЧИТЬ> {КРЕДИТ}

НА [Number:Amount]• [Entity:Creditor:[Им]] <ВЫДЕЛИТЬ>

[Entity:Debtor:[Рд, Дт, Пр]] {КРЕДИТ} В [Number:Amount]

Page 27: Итерационное извлечение шаблонов описания событий по новостным кластерам

Примеры значимых словКредит ПокупкаКРЕДИТАВТОКРЕДИТБРИДЖ-КРЕДИТГОСКРЕДИТМИКРОКРЕДИТСТАБКРЕДИТТРАНШЭКСПРЕСС-КРЕДИТ

КУПИТЬВЫКУПИТЬДОКУПИТЬЗАКУПИТЬНАКУПИТЬНАПОКУПАТЬПЕРЕКУПИТЬПОКУПАТЬВсего 19 слов

Page 28: Итерационное извлечение шаблонов описания событий по новостным кластерам

Результаты

• Разработан метод итерационного извлечения шаблонов для системы извлечения информации из текста, основанный на нахождении в новостном кластере несколько близких по содержанию предложений.

• Проведены эксперименты, которые показали применимость системы для формирования шаблонов на небольшом количестве размеченных примеров