Извлечение информации из текста в системе ИСИДА-Т
DESCRIPTION
Извлечение информации из текста в системе ИСИДА-Т. Д.А.Кормалев , Е.П.Куршев , Е.А.Сулейманова, И.В.Трофимов ( Институт программных систем РАН ) RCDL-2009. Извлечение информации из текстов. - PowerPoint PPT PresentationTRANSCRIPT
Извлечение информации из текста в системе ИСИДА-Т
Д.А.Кормалев, Е.П.Куршев, Е.А.Сулейманова, И.В.Трофимов
(Институт программных систем РАН)
RCDL-2009
Извлечение информации из текстов
• Выявления в электронных документах всех упоминаний об объектах и фактах, представляющих интерес для пользователя
• Сфера интересов пользователя определяется заранее (в процессе создания или настройки системы извлечения)
Извлечение в «слабом» смысле
• Поверхностный анализ близкий к семантическому маркированию текста
• Проекция на простую реляционную модель• Анализ простых контекстов. Низкая полнота• Неплохо работает как поисковая
технология на больших коллекциях документов
Извлечение в «сильном» смысле
• Детальный анализ с опорой на модель предметной области, точная классификация объектов
• Проекция на объектно-ориентированную модель
• Нормализация извлекаемого• Отождествление извлекаемого
Слабое и сильное
Слабое и сильное: примеры
• Исполнительный директор ОАО «Рога и копыта» Алексей Иванов…
• Заместителем Иванова в комитете Госдумы по вопросам внешней политики назначена Юлия Петрова.
Что нужно?
• Нужно знать язык• Нужно обладать «фоновыми» знаниями о
предметной области
Средства анализа естественного языка
• Средства общего лингвистического анализа• Средства предметно-ориентированного
анализа– выявление целевой лексики– распознавание целевых сущностей, их
атрибутов и отношений между этими сущностями
CPSL (common pattern specification language)
• Декларация способа выражения в тексте сущности или факта в терминах грамматических атрибутов и используемой лексики.
Расширение CPSL
• Переменные• Проверка взаимного расположения
фрагментов текста (не только следование, но и различного рода вложение, пересечение)
• Функции для обращения к модели предметной области
Опора на модель
• Точная классификация сущностей– Президенту ОАЭ Газпром сделал
предложение…– Президенту ОАО Газпром сделали
предложение…
• Точное установление отношений– Отдел компании (является частью)– Совет директоров компании (возглавляет)
Модели недостаточно
• Для разрешения неоднозначностей иногда требуется обширная фактографическая база– По словам руководителя администрации
президента Российской Федерации Сергея Нарышкина…
– По словам руководителя администрации президента Медведева….
Ресурс знаний
База априорных предметных знаний+Словарь предметной лексики+Фактографическая база
Классификация знаний
Сложности
• Таксономия (дифференцирующие критерии)
• Что выражать через атрибуты, а что через таксономию.
• Иногда идем от текстов (иерархия по гипонимам/гиперонимам)
• Аморфные понятия (власти, аппарат = администрация)
Унификация + вывод + отождествление
= частичное целеориентированное разрешение референции
Пример:– Украинский спикер– Спикер украинского парламента– Спикер Верховной Рады
Вывод: интерпретация признаков
• Ярославский губернатор• Ярославский мэр
Ярославский мэрАдм.-тер.принадлежность
г.Ярославль
Ярославская область
Ярославский
Признак
связан с
Признак связан с
г.Ярославль мэрвозглавлять
Сложность
• Курчатовский институт < -- > г. Курчатов
Вывод: для унификации
• Украинский спикер
Украинский спикерАдм.-тер.принадлежность
Украина парламентАдм.-тер.принадлежность спикерРуководящая
должность в
Отождествление
• Правила отождествления• Сопоставление подграфов в
фактографической базе
Исида-Т
• Инструментальное средство для создания специализированных систем извлечения информации
Вопросы?
Спасибо за внимание!