Извлечение информации из текста в системе ИСИДА-Т

23
Извлечение информации из текста в системе ИСИДА-Т Д.А.Кормалев, Е.П.Куршев, Е.А.Сулейманова, И.В.Трофимов (Институт программных систем РАН) RCDL-2009

Upload: allene

Post on 19-Jan-2016

60 views

Category:

Documents


0 download

DESCRIPTION

Извлечение информации из текста в системе ИСИДА-Т. Д.А.Кормалев , Е.П.Куршев , Е.А.Сулейманова, И.В.Трофимов ( Институт программных систем РАН ) RCDL-2009. Извлечение информации из текстов. - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: Извлечение информации из текста в системе ИСИДА-Т

Извлечение информации из текста в системе ИСИДА-Т

Д.А.Кормалев, Е.П.Куршев, Е.А.Сулейманова, И.В.Трофимов

(Институт программных систем РАН)

RCDL-2009

Page 2: Извлечение информации из текста в системе ИСИДА-Т

Извлечение информации из текстов

• Выявления в электронных документах всех упоминаний об объектах и фактах, представляющих интерес для пользователя

• Сфера интересов пользователя определяется заранее (в процессе создания или настройки системы извлечения)

Page 3: Извлечение информации из текста в системе ИСИДА-Т

Извлечение в «слабом» смысле

• Поверхностный анализ близкий к семантическому маркированию текста

• Проекция на простую реляционную модель• Анализ простых контекстов. Низкая полнота• Неплохо работает как поисковая

технология на больших коллекциях документов

Page 4: Извлечение информации из текста в системе ИСИДА-Т

Извлечение в «сильном» смысле

• Детальный анализ с опорой на модель предметной области, точная классификация объектов

• Проекция на объектно-ориентированную модель

• Нормализация извлекаемого• Отождествление извлекаемого

Page 5: Извлечение информации из текста в системе ИСИДА-Т

Слабое и сильное

Page 6: Извлечение информации из текста в системе ИСИДА-Т

Слабое и сильное: примеры

• Исполнительный директор ОАО «Рога и копыта» Алексей Иванов…

• Заместителем Иванова в комитете Госдумы по вопросам внешней политики назначена Юлия Петрова.

Page 7: Извлечение информации из текста в системе ИСИДА-Т

Что нужно?

• Нужно знать язык• Нужно обладать «фоновыми» знаниями о

предметной области

Page 8: Извлечение информации из текста в системе ИСИДА-Т

Средства анализа естественного языка

• Средства общего лингвистического анализа• Средства предметно-ориентированного

анализа– выявление целевой лексики– распознавание целевых сущностей, их

атрибутов и отношений между этими сущностями

Page 9: Извлечение информации из текста в системе ИСИДА-Т

CPSL (common pattern specification language)

• Декларация способа выражения в тексте сущности или факта в терминах грамматических атрибутов и используемой лексики.

Page 10: Извлечение информации из текста в системе ИСИДА-Т

Расширение CPSL

• Переменные• Проверка взаимного расположения

фрагментов текста (не только следование, но и различного рода вложение, пересечение)

• Функции для обращения к модели предметной области

Page 11: Извлечение информации из текста в системе ИСИДА-Т

Опора на модель

• Точная классификация сущностей– Президенту ОАЭ Газпром сделал

предложение…– Президенту ОАО Газпром сделали

предложение…

• Точное установление отношений– Отдел компании (является частью)– Совет директоров компании (возглавляет)

Page 12: Извлечение информации из текста в системе ИСИДА-Т

Модели недостаточно

• Для разрешения неоднозначностей иногда требуется обширная фактографическая база– По словам руководителя администрации

президента Российской Федерации Сергея Нарышкина…

– По словам руководителя администрации президента Медведева….

Page 13: Извлечение информации из текста в системе ИСИДА-Т

Ресурс знаний

База априорных предметных знаний+Словарь предметной лексики+Фактографическая база

Page 14: Извлечение информации из текста в системе ИСИДА-Т

Классификация знаний

Page 15: Извлечение информации из текста в системе ИСИДА-Т

Сложности

• Таксономия (дифференцирующие критерии)

• Что выражать через атрибуты, а что через таксономию.

• Иногда идем от текстов (иерархия по гипонимам/гиперонимам)

• Аморфные понятия (власти, аппарат = администрация)

Page 16: Извлечение информации из текста в системе ИСИДА-Т

Унификация + вывод + отождествление

= частичное целеориентированное разрешение референции

Пример:– Украинский спикер– Спикер украинского парламента– Спикер Верховной Рады

Page 17: Извлечение информации из текста в системе ИСИДА-Т

Вывод: интерпретация признаков

• Ярославский губернатор• Ярославский мэр

Ярославский мэрАдм.-тер.принадлежность

г.Ярославль

Ярославская область

Ярославский

Признак

связан с

Признак связан с

г.Ярославль мэрвозглавлять

Page 18: Извлечение информации из текста в системе ИСИДА-Т

Сложность

• Курчатовский институт < -- > г. Курчатов

Page 19: Извлечение информации из текста в системе ИСИДА-Т

Вывод: для унификации

• Украинский спикер

Украинский спикерАдм.-тер.принадлежность

Украина парламентАдм.-тер.принадлежность спикерРуководящая

должность в

Page 20: Извлечение информации из текста в системе ИСИДА-Т

Отождествление

• Правила отождествления• Сопоставление подграфов в

фактографической базе

Page 21: Извлечение информации из текста в системе ИСИДА-Т

Исида-Т

• Инструментальное средство для создания специализированных систем извлечения информации

Page 22: Извлечение информации из текста в системе ИСИДА-Т

Вопросы?

Page 23: Извлечение информации из текста в системе ИСИДА-Т

Спасибо за внимание!