Transcript
Page 1: 04 извлечение информации

Извлечение Извлечение информацииинформации

Лидия Михайловна Лидия Михайловна ПивовароваПивоварова

Системы понимания Системы понимания текстатекста

Page 2: 04 извлечение информации

ВведениеВведение

Information ExtractionInformation Extraction – – извлечение извлечение из текста информации из текста информации определенного типа и определенного типа и представление ее в заданном представление ее в заданном формате формате ((чаще всего БД)чаще всего БД)

InformationRetrieval

TextUnderstanding

InformationExtraction

Page 3: 04 извлечение информации

МотивацияМотивация

Пополнение баз данных (и баз Пополнение баз данных (и баз знаний)знаний)

Получение входных данных для Получение входных данных для работы других системработы других систем

Привлечение внимания эксперта к Привлечение внимания эксперта к значимым аспектам информациизначимым аспектам информации

Page 4: 04 извлечение информации

СодержаниеСодержание

Message Understanding ConferenceMessage Understanding Conference Извлечение информации: Извлечение информации:

основные подходыосновные подходы Named Entity RecognitionNamed Entity Recognition Извлечение отношенийИзвлечение отношений Наш опытНаш опыт

Page 5: 04 извлечение информации

– – выработка общих подходов к выработка общих подходов к методологии и способам оценки методологии и способам оценки систем извлечения информации из систем извлечения информации из текста.текста.Год Источники Предметная область

MUC-1 1987 военные сводки военно-морские операции

MUC-2 1989 военные сводки военно-морские операции

MUC-3 1991 новости Террористическая активность

MUC-4 1992 новости Террористическая активность

MUC-5 1993 новости совместные предприятия, производство

MUC-6 1995 новости смена лидеров на рынке

MUC-7 1997 новости крушения самолетов, запуски ракет

MUC MUC ((Message Message Understanding Understanding

Conference), Conference), 1987-19971987-1997

Page 6: 04 извлечение информации

Named Entity recognitionNamed Entity recognition - - выделение выделение именованных сущностейименованных сущностей

Coreference resolution -Coreference resolution - разрешение разрешение кореференциикореференции

Template Element construction Template Element construction - - добавление добавление атрибутов к сущностям, найденным на этапе атрибутов к сущностям, найденным на этапе NENE, с использованием , с использованием CR CR

Template Relation constructionTemplate Relation construction – выявление – выявление связей между отдельными сущностямисвязей между отдельными сущностями

Scenario Template production Scenario Template production – построение – построение полного описания события (факта) путем полного описания события (факта) путем объединения результатов объединения результатов TE TE и и TR TR

Дорожки Дорожки MUCMUC

Page 7: 04 извлечение информации

Блестящая красная ракета была запущена во вторник. Это Блестящая красная ракета была запущена во вторник. Это изобретение доктора Биг Хеда. Хед - штатный научный изобретение доктора Биг Хеда. Хед - штатный научный сотрудник Билд Рокет Инкорпорейтед.сотрудник Билд Рокет Инкорпорейтед.

Named Entity recognitionNamed Entity recognition::

доктор Биг Хед, Хед, Билд Рокет доктор Биг Хед, Хед, Билд Рокет ИнкорпорейтедИнкорпорейтед

ракета, вторник…ракета, вторник…ССoreference resolutionoreference resolution: :

доктор Биг Хед доктор Биг Хед Хед Хед

это это →→ ракета ракетаTemplate Element constructionTemplate Element construction: :

Ключ Объект Цвет Светоотражательные свойства

0267 Ракета Красная Блестящая

Page 8: 04 извлечение информации

Блестящая красная ракета была запущена во вторник. Это Блестящая красная ракета была запущена во вторник. Это изобретение доктора Биг Хеда. Хед - штатный научный изобретение доктора Биг Хеда. Хед - штатный научный сотрудник Билд Рокет Инкорпорейтед.сотрудник Билд Рокет Инкорпорейтед.

Template Relation constructionTemplate Relation construction::

Scenario Template productionScenario Template production::

Ключ Объект Цвет Светоотражательные свойства

Изобретен

0267 Ракета Красная Блестящая 7824

Ключ ФИО Степень Работает Должность

7824 Биг Хед Доктор 2345 452

Ключ Тип события

Объект Дата

18 Запуск 0267 Вторник

Page 9: 04 извлечение информации

Recall = NRecall = Ncorrect correct /N/Nall-correctall-correct

Precision = NPrecision = Ncorrect correct /(N/(Ncorrect + correct + NNincorrect incorrect ))

F-mera = F-mera = (β(β22+1 )+1 )*r*p/(*r*p/(ββ2 2 ** r+p)r+p)

Named Entity recognitionNamed Entity recognition F<94%F<94% Coreference resolution Coreference resolution F<62%F<62% Template Element construction Template Element construction

F<87%F<87% Template Relation constructionTemplate Relation construction

F<76%F<76% Scenario Template production Scenario Template production F<51%F<51%

ОценкаОценка

Page 10: 04 извлечение информации

Дальнейшее развитиеДальнейшее развитие ACE (ACE (Automatic Content Extraction)Automatic Content Extraction)

1999 – 2008 1999 – 2008 По сравнению с По сравнению с MUCMUC::

более детальная таксономия сущностейболее детальная таксономия сущностей для всех систем обязательна для всех систем обязательна

интерпретация метонимических связейинтерпретация метонимических связей требуется семантический анализ требуется семантический анализ

обрабатываемого текстаобрабатываемого текста Text Analysis Conference (TAC)Text Analysis Conference (TAC) – –

настоящее времянастоящее время

Page 11: 04 извлечение информации

СодержаниеСодержание

Message Understanding ConferenceMessage Understanding Conference Извлечение информации: Извлечение информации:

основные подходыосновные подходы Named Entity RecognitionNamed Entity Recognition Извлечение отношенийИзвлечение отношений Наш опытНаш опыт

Page 12: 04 извлечение информации

Основные подходыОсновные подходы

Задача всегда предельно конкретна:Задача всегда предельно конкретна: определенный тип текстаопределенный тип текста искомая информация представлена в искомая информация представлена в

виде набора полей для заполнениявиде набора полей для заполнения Текст, включающий такую Текст, включающий такую

информацию, предельно шаблонныйинформацию, предельно шаблонный Поиск осуществляется при помощи Поиск осуществляется при помощи

набора образцовнабора образцов

Page 13: 04 извлечение информации

ОбразцыОбразцы Состав образцов:Состав образцов:

Лексика, семантикаЛексика, семантика Частичный синтаксисЧастичный синтаксис Близость, взаимное расположение частейБлизость, взаимное расположение частей

Формат:Формат: Зависит от формата представления текста в Зависит от формата представления текста в

системесистеме Часто используются специальные языки Часто используются специальные языки

(грамматики)(грамматики) Построение образцов: Построение образцов:

ВручнуюВручную Машинное обучение (Машинное обучение (bootstrappingbootstrapping)) Обобщение образцов с привлечением словарных Обобщение образцов с привлечением словарных

и/или онтологических ресурсови/или онтологических ресурсов

Page 14: 04 извлечение информации

Машинное обучениеМашинное обучение Pro:Pro:

не требует большого количества ручного не требует большого количества ручного труда по написанию правилтруда по написанию правил

система более гибкая, ее легко система более гибкая, ее легко перенастроить перенастроить

Contra:Contra: требуется большой обучающий корпус, требуется большой обучающий корпус,

правильно и полностью размеченныйправильно и полностью размеченный

сложно отследить в каком именно месте сложно отследить в каком именно месте возникла ошибка и исправить ее возникла ошибка и исправить ее «точечно»«точечно»

Page 15: 04 извлечение информации

ПравилаПравила Pro:Pro:

Может быть предпочтительна в случае Может быть предпочтительна в случае сложной предметной области и/или сложной предметной области и/или отсутствия лингвистических ресурсовотсутствия лингвистических ресурсов

ContraContra Большая ручная работа, требующая Большая ручная работа, требующая

специальной квалификацииспециальной квалификации Трудно перенастраиватьТрудно перенастраивать

Возможны (и даже Возможны (и даже предпочтительны) гибридные предпочтительны) гибридные подходыподходы

Page 16: 04 извлечение информации

СодержаниеСодержание

Message Understanding ConferenceMessage Understanding Conference Извлечение информации: Извлечение информации:

основные подходыосновные подходы Named Entity RecognitionNamed Entity Recognition Анафора и кореференцияАнафора и кореференция Наш опытНаш опыт

Page 17: 04 извлечение информации

Извлечение именованных Извлечение именованных сущностейсущностей

Named Entity: Named Entity: Стандартные примеры: персоналии, Стандартные примеры: персоналии,

географические названия, организации…географические названия, организации… Для биологических текстов: названия генов, Для биологических текстов: названия генов,

белков, ферментов…белков, ферментов… Не только для Не только для Information ExtractionInformation Extraction: :

ответы на вопросы, извлечение мнений, ответы на вопросы, извлечение мнений, реферирование…реферирование…

Named Entity Recognition: Information Named Entity Recognition: Information Extraction Extraction в миниатюре; проще, потому в миниатюре; проще, потому что не нужно извлекать связи между что не нужно извлекать связи между понятиямипонятиями

Page 18: 04 извлечение информации

Основные подходыОсновные подходы

Основанный на знаниях:Основанный на знаниях: список имен собственныхсписок имен собственных регулярные выражения, описывающие регулярные выражения, описывающие

именованные сущностиименованные сущности образцы, описывающие контекстобразцы, описывающие контекст

Машинное обучениеМашинное обучение обучающий корпусобучающий корпус определение характерных свойствопределение характерных свойств поиск по этим свойствампоиск по этим свойствам

Page 19: 04 извлечение информации

СодержаниеСодержание

Message Understanding ConferenceMessage Understanding Conference Извлечение информации: Извлечение информации:

основные подходыосновные подходы Named Entity RecognitionNamed Entity Recognition Извлечение отношенийИзвлечение отношений Наш опытНаш опыт

Page 20: 04 извлечение информации

Извлечение отношений Извлечение отношений между понятиямимежду понятиями

Отношения:Отношения: Таксономические – Таксономические – РОД-ВИДРОД-ВИД, , ЧАСТЬ-ЦЕЛОЕЧАСТЬ-ЦЕЛОЕ…… Специфические для предметной области – Специфические для предметной области – СТРАНА-СТОЛИЦАСТРАНА-СТОЛИЦА, , БЕЛОК-ФЕРМЕНТБЕЛОК-ФЕРМЕНТ……

В тексте определяются:В тексте определяются: Свойствами именованных сущностейСвойствами именованных сущностей Лексическими свойствами контекстаЛексическими свойствами контекста Синтаксическими свойствами контекстаСинтаксическими свойствами контекста

Извлечение:Извлечение: Правила (образцы) Правила (образцы) vs. vs. машинное обучение машинное обучение Поиск: начиная с именованных сущностей Поиск: начиная с именованных сущностей

vs. vs. Начиная с отношенийНачиная с отношений

Page 21: 04 извлечение информации

Анафора и Анафора и кореференциякореференция

Извлечение информации в масштабах Извлечение информации в масштабах текстатекста

Кореференция: возможно использование Кореференция: возможно использование экстралингвистической информацииэкстралингвистической информации

Анафора: невозможно использование Анафора: невозможно использование экстралингвистической информацииэкстралингвистической информации Вокруг местоимения отыскиваются Вокруг местоимения отыскиваются

существительные-кандидатысуществительные-кандидаты Проверяется согласованиеПроверяется согласование Статистики и эвристикиСтатистики и эвристики

Во многих систем не разрешается ни Во многих систем не разрешается ни анафора, ни даже кореференция – анафора, ни даже кореференция – трудоемкие алгоритмы, низкое качествотрудоемкие алгоритмы, низкое качество

Page 22: 04 извлечение информации

СодержаниеСодержание

Message Understanding ConferenceMessage Understanding Conference Извлечение информации: основные Извлечение информации: основные

подходыподходы Named Entity RecognitionNamed Entity Recognition Извлечение отношенийИзвлечение отношений Наш опыт:Наш опыт:

Система фактографического поиска в газетных Система фактографического поиска в газетных текстахтекстах

Система автоматического пополнения Система автоматического пополнения онтологии на основе энциклопедических и онтологии на основе энциклопедических и толковых словарейтолковых словарей

Page 23: 04 извлечение информации

Система Система фактографического фактографического

поиска в газетных текстахпоиска в газетных текстах Рубашкин В. Ш., Капустин В. А., Пивоварова Л. Рубашкин В. Ш., Капустин В. А., Пивоварова Л.

М., Чуприн Б. Ю. М., Чуприн Б. Ю.  Методы извлечения  Методы извлечения фактографической информации из фактографической информации из текстов. Опыт разработкитекстов. Опыт разработки.  // Megaling’2007 .  // Megaling’2007 Горизонты прикладной лингвистики и Горизонты прикладной лингвистики и лингвистических технологий– Симферополь: лингвистических технологий– Симферополь: Изд-во ДиАйПи, 2007. Изд-во ДиАйПи, 2007.

Пивоварова Л.М. Пивоварова Л.М. Фактографический анализ Фактографический анализ текста в системе поддержки принятия текста в системе поддержки принятия решенийрешений // Вестник Санкт-Петербургского // Вестник Санкт-Петербургского университета Сер. Филология, востоковедение, университета Сер. Филология, востоковедение, журналистика. 2010. Вып. 4 - 190-197 журналистика. 2010. Вып. 4 - 190-197

Page 24: 04 извлечение информации

Система Система FactorsFactors

Система, основанная на знаниях – используется онтология Система, основанная на знаниях – используется онтология IntTez -IntTez - http://http://inttez.ruinttez.ru//

Page 25: 04 извлечение информации

Постановка задачиПостановка задачиЗадача: извлечение из текстов СМИ Задача: извлечение из текстов СМИ

информации общественно-информации общественно-политической тематики.политической тематики.

Факторы - различные характеристики Факторы - различные характеристики общественно-политической общественно-политической ситуации(около 100).ситуации(около 100).

Значения факторов: Значения факторов: Количественные - Количественные - число число

пенсионеров; средний уровень пенсионеров; средний уровень заработной платы заработной платы

Оценочные - Оценочные - социальная социальная напряженность; военные угрозынапряженность; военные угрозы

Page 26: 04 извлечение информации

Система Система Factors:Factors: - интеллектуальная среда для - интеллектуальная среда для

поддержки работы эксперта-поддержки работы эксперта-аналитика с текстами.аналитика с текстами.

Режимы работы:Режимы работы: АвтоматическийАвтоматический ДиалоговыйДиалоговый

ТЕКСТЫ FACTORS

Фактор Значение

Page 27: 04 извлечение информации

Функциональность:Функциональность:1.1. Последовательное наращивание Последовательное наращивание

распознаваемых аспектов распознаваемых аспектов содержания в процессе работы содержания в процессе работы эксперта-аналитика с системой.эксперта-аналитика с системой.

2.2. Легкость и простота редактирования Легкость и простота редактирования и пополнения; визуальное и пополнения; визуальное представление информации.представление информации.

3.3. Функциональная расширяемость и Функциональная расширяемость и переносимость на другие переносимость на другие проблемные и предметные области.проблемные и предметные области.

Page 28: 04 извлечение информации

ОбразцыОбразцы1.1. Текстовые – выделение в тексте Текстовые – выделение в тексте

релевантных фрагментов (при релевантных фрагментов (при анализе может проверяться анализе может проверяться совпадение синтаксических связей)совпадение синтаксических связей)

2.2. Концептуальные – сборка образца из Концептуальные – сборка образца из концептов концептов онтологии онтологии (при анализе (при анализе осуществляется поиск с учетом осуществляется поиск с учетом отношения «общее-частное»)отношения «общее-частное»)

3.3. СмешанныеСмешанные

Page 29: 04 извлечение информации

ОбразцыОбразцы Фактор + значениеФактор + значение

В основном для оценочных В основном для оценочных факторов факторов социальная социальная напряженность напряженность → → стихийный стихийный митингмитинг

Только факторТолько фактор

Для количественных факторов:Для количественных факторов:

уровень инфляции уровень инфляции →→

инфляция составила инфляция составила 4%4%

Page 30: 04 извлечение информации

Поиск образцов в текстеПоиск образцов в тексте

население ... право на труд ... ограничениенаселение ... право на труд ... ограничение

1) Поиск опорного элемента1) Поиск опорного элементанаселение ... население ... право на трудправо на труд ... ограничение ... ограничение

2) Поиск в окрестности других элементов2) Поиск в окрестности других элементовнаселение ...население ... право на трудправо на труд ... ограничение... ограничение

Для концептов образца – учет синонимовДля концептов образца – учет синонимовограничение = ограниченный, ограничить, ущемлениеограничение = ограниченный, ограничить, ущемление

Параметры поиска предполагают отладку и Параметры поиска предполагают отладку и настройкунастройку

Page 31: 04 извлечение информации

Только фактор: поиск значенияТолько фактор: поиск значенияСобственный признак фактора – концепт, Собственный признак фактора – концепт,

отвечающий на вопрос «количество отвечающий на вопрос «количество (величина) чего?» (величина) чего?»

Уровень зарплатыУровень зарплаты → заработная плата→ заработная платаТранспортные издержки → тратыТранспортные издержки → тратыЧисло пенсионеров → пенсионерыЧисло пенсионеров → пенсионеры

Онтология: Онтология: собственный признак ↔ единица собственный признак ↔ единица

измеренияизмерениязаработная плата заработная плата ↔ ↔ денежная единицаденежная единицапенсионеры пенсионеры ↔ ↔ без единицбез единиц

Page 32: 04 извлечение информации

Общий алгоритм поискаОбщий алгоритм поиска

1) Поиск образца1) Поиск образца2) Определение собственного 2) Определение собственного

признака и единиц измеренияпризнака и единиц измерения3) Поиск числа с единицей 3) Поиск числа с единицей

измеренияизмерения4) Проверка соответствия единиц 4) Проверка соответствия единиц

измеренияизмерения5) Если число не найдено – поиск 5) Если число не найдено – поиск

слов слов большой, маленький, растет, большой, маленький, растет, падает падает и их синонимови их синонимов

6) Определение достоверности6) Определение достоверности

Page 33: 04 извлечение информации

СодержаниеСодержание

Message Understanding ConferenceMessage Understanding Conference Извлечение информации: основные Извлечение информации: основные

подходыподходы Named Entity RecognitionNamed Entity Recognition Извлечение отношенийИзвлечение отношений Наш опыт:Наш опыт:

Система фактографического поиска в газетных Система фактографического поиска в газетных текстахтекстах

Система автоматического пополнения Система автоматического пополнения онтологии на основе энциклопедических и онтологии на основе энциклопедических и толковых словарейтолковых словарей

Page 34: 04 извлечение информации

V. Bocharov, L. Pivovarova, V. Rubashkin, B. Chuprin V. Bocharov, L. Pivovarova, V. Rubashkin, B. Chuprin Ontological Parsing of Encyclopedia InformationOntological Parsing of Encyclopedia Information. In . In Computational Linguistics and Intelligent Text Processing Computational Linguistics and Intelligent Text Processing 11th International Conference, CICLing 2010, Iasi, Romania, 11th International Conference, CICLing 2010, Iasi, Romania, March 21-27, 2010. Proceedings. Lecture Notes in Computer March 21-27, 2010. Proceedings. Lecture Notes in Computer Science. - Springer Berlin / Heidelberg – 2010 – pp. 564 – Science. - Springer Berlin / Heidelberg – 2010 – pp. 564 – 579579

Бочаров В.В., Пивоварова Л.М., Рубашкин В.Ш. Бочаров В.В., Пивоварова Л.М., Рубашкин В.Ш. Логико-Логико-лингвистический анализ текстов определений в лингвистический анализ текстов определений в энциклопедических и толковых словаряхэнциклопедических и толковых словарях // Сучасні // Сучасні технології комп’ютерної лексикографії (на матеріалах технології комп’ютерної лексикографії (на матеріалах міжнародної конференції «MegaLing’2009») : Зб. наук. міжнародної конференції «MegaLing’2009») : Зб. наук. пр. / НАН України, Укр. мовно-інформ. фонд [та ін.]; пр. / НАН України, Укр. мовно-інформ. фонд [та ін.]; редкол.: Ю. Д. Апресян [та ін.].— К. : Довіра, 2009редкол.: Ю. Д. Апресян [та ін.].— К. : Довіра, 2009

Рубашкин В.Ш., Бочаров В.В., Пивоварова Л.М., Чуприн Рубашкин В.Ш., Бочаров В.В., Пивоварова Л.М., Чуприн Б.Ю. Б.Ю. Опыт автоматизированного пополнения Опыт автоматизированного пополнения онтологий с использованием машиночитаемых онтологий с использованием машиночитаемых словарейсловарей // Компьютерная лингвистика и // Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной интеллектуальные технологии: По материалам ежегодной Международной конференции «Диалог» (Бекасово, 26-30 Международной конференции «Диалог» (Бекасово, 26-30 мая 2010 г.). Вып. 9 (16). - М.: Изд-во РГГУ, 2010. мая 2010 г.). Вып. 9 (16). - М.: Изд-во РГГУ, 2010.

Система автоматического Система автоматического пополнения онтологии на пополнения онтологии на

основеоснове

Page 35: 04 извлечение информации

Пополнение онтологийПополнение онтологий

Пополнение онтологий – бутылочное Пополнение онтологий – бутылочное горлышко инженерии знанийгорлышко инженерии знаний

Ontology Learning – Ontology Learning – автоматическое автоматическое пополнение онтологии на основе пополнение онтологии на основе естественно-языковых текстовестественно-языковых текстов

Page 36: 04 извлечение информации

ИсточникИсточник

Российский энциклопедический Российский энциклопедический словарь - Гл. ред.: А. М. Прохоров — М.: словарь - Гл. ред.: А. М. Прохоров — М.: Большая Российская энциклопедия, Большая Российская энциклопедия, 20012001

исключены персоналии, исключены персоналии, географические названия и другие географические названия и другие имена собственныеимена собственные

26375 словарных статей, 21782 26375 словарных статей, 21782 различных терминовразличных терминов

Page 37: 04 извлечение информации

ГипотезаГипотеза

В большинстве случаев родовой по В большинстве случаев родовой по отношению к определяемому отношению к определяемому термин представлен первым по термин представлен первым по порядку существительным (именной порядку существительным (именной группой) в именительном падеже.группой) в именительном падеже.

АГРАФ - нарядная АГРАФ - нарядная заколказаколка для волос, для волос, с помощью которой крепили в с помощью которой крепили в прическах перья, цветы, прическах перья, цветы, искусственные локоны и т. д.искусственные локоны и т. д.

Page 38: 04 извлечение информации

ПримерыПримеры

ПЕРИСТИЛЬ - прямоугольный ПЕРИСТИЛЬ - прямоугольный двордвор, сад, , сад, площадь, окруженные с 4 сторон площадь, окруженные с 4 сторон крытой колоннадой.крытой колоннадой.

ЯТАГАН - рубяще-колющее ЯТАГАН - рубяще-колющее оружиеоружие (среднее между саблей и кинжалом) у (среднее между саблей и кинжалом) у народов Ближнего и Среднего Востока народов Ближнего и Среднего Востока (известно с 16 в.).(известно с 16 в.).

Page 39: 04 извлечение информации

Общий алгоритм Общий алгоритм анализаанализа

Дерево зависимостей

Словарная статья (текст)

Словарная статья (текст + пометы + сокр.)

Извлечение отношений

Синтаксический анализ

Лексикографическая обработка

Отношения (термин – ключевое слово)

Page 40: 04 извлечение информации

сокращения (разворачиваются в сокращения (разворачиваются в полные слова, если это возможно)полные слова, если это возможно)

пометы (удаляются)пометы (удаляются)

текст в скобках (удаляется)текст в скобках (удаляется)

Лексикографическая Лексикографическая обработкаобработка

Page 41: 04 извлечение информации

АБРЕКИ - В прошлом АБРЕКИ - В прошлом у народов у народов Сев. Сев. Кавказа Кавказа изгнанники изгнанники из рода, ведшие из рода, ведшие скитальческую или скитальческую или разбойничью жизньразбойничью жизнь

АБРЕКИ - В прошлом АБРЕКИ - В прошлом у народов Северного у народов Северного Кавказа изгнанники Кавказа изгнанники из рода, ведшие из рода, ведшие скитальческую или скитальческую или разбойничью жизньразбойничью жизнь

АКСЕЛЕРАЦИЯ - (В антропологии) ускорение роста и полового созревания детей и подростков

АКСЕЛЕРАЦИЯ - ускорение роста и полового созревания детей и подростков

Лексикографическая Лексикографическая обработкаобработка

Page 42: 04 извлечение информации

Используются компоненты АОТИспользуются компоненты АОТ

Упрощённые правила (Упрощённые правила (Tomita-Tomita-формализм)формализм)

Строится дерево зависимостейСтроится дерево зависимостей

Синтаксический анализСинтаксический анализ

Page 43: 04 извлечение информации

ПРИЛАГАТЕЛЬНОЕ + ИМЕННАЯ ГРУППАПРИЛАГАТЕЛЬНОЕ + ИМЕННАЯ ГРУППА[ANP] -> [A[ANP] -> [ADJDJ] [NP root]] [NP root]: $0.grm := case_number_gender($1.grm, $2.type_grm, : $0.grm := case_number_gender($1.grm, $2.type_grm,

$2.grm);$2.grm);

ГЕНИТИВНАЯ ГРУППАГЕНИТИВНАЯ ГРУППА[GP] -> [NP root] [NP grm="рд"];[GP] -> [NP root] [NP grm="рд"];

ПРЕДЛОЖНАЯ ГРУППАПРЕДЛОЖНАЯ ГРУППА[PP] -> [P[PP] -> [PREPREP root] [NP]; root] [NP];

ИМЕННАЯ ГРУППАИМЕННАЯ ГРУППА[NP] -> [NOUN];[NP] -> [NOUN];[NP] -> [NP root] [PP] ;[NP] -> [NP root] [PP] ;[NP] -> [PP] | [GP] | [ANP];[NP] -> [PP] | [GP] | [ANP];

Упрощенные правилаУпрощенные правила

Page 44: 04 извлечение информации

ПРИЛАГАТЕЛЬНОЕ + ИМЕННАЯ ПРИЛАГАТЕЛЬНОЕ + ИМЕННАЯ ГРУППАГРУППА

ВОДОРОД - ХИМИЧЕСКИЙ ЭЛЕМЕНТВОДОРОД - ХИМИЧЕСКИЙ ЭЛЕМЕНТ

ХАЛАТ – ВЕРХНЯЯ ОДЕЖДАХАЛАТ – ВЕРХНЯЯ ОДЕЖДА

ГЕНИТИВНАЯ ГРУППАГЕНИТИВНАЯ ГРУППА

АМПЕР - ЕДИНИЦА ИЗМЕРЕНИЯАМПЕР - ЕДИНИЦА ИЗМЕРЕНИЯ

АБЗАЦ – ЧАСТЬ ТЕКСТААБЗАЦ – ЧАСТЬ ТЕКСТА

ПРЕДЛОЖНАЯ ГРУППАПРЕДЛОЖНАЯ ГРУППА

АВАЛЬ - ПОРУЧИТЕЛЬСТВО ПО ВЕКСЕЛЮАВАЛЬ - ПОРУЧИТЕЛЬСТВО ПО ВЕКСЕЛЮ

АКСЕЛЕРОМЕТР – ПРИБОР ДЛЯ АКСЕЛЕРОМЕТР – ПРИБОР ДЛЯ ИЗМЕРЕНИЯ УСКОРЕНИЯИЗМЕРЕНИЯ УСКОРЕНИЯ

Page 45: 04 извлечение информации

До После

Лемм / слово 1,27 1,06

Морфологических вариантов / слово

2,26 1,64

Синтаксический анализ: Синтаксический анализ: снятие неоднозначностиснятие неоднозначности

Page 46: 04 извлечение информации

о чукотском морео чукотском море

мореморе МОРЕ (ср.р.)МОРЕ (ср.р.) МОР (мр.р.)МОР (мр.р.) МОРА (жр.р.)МОРА (жр.р.)

МОРА отбрасывается после МОРА отбрасывается после синтаксического анализасинтаксического анализа

Неоднозначность: Неоднозначность: примерпример

Page 47: 04 извлечение информации

АВАНПОРТ - внешняя АВАНПОРТ - внешняя частьчасть портапорта, , предназначенная для стоянки судов, предназначенная для стоянки судов, ожидающих подхода к причалам, ожидающих подхода к причалам, погрузки и разгрузки.погрузки и разгрузки.

ШНЕК - ШНЕК - названиеназвание винтового винтового конвейераконвейера..

ПАРАБОЛОГРАФ - ПАРАБОЛОГРАФ - приборприбор для для вычерчивания вычерчивания плоских кривых 2-го плоских кривых 2-го порядка (парабол).порядка (парабол).

Отношение между Отношение между термином и определениемтермином и определением

Page 48: 04 извлечение информации

Тождество Same

Обобщение (значение по умолчанию) Gen

Частный случай (обратное к GEN) Spec

Часть Part

Целое Whole

Назначение Func

другое Other

Типы выделяемых Типы выделяемых отношенийотношений

Page 49: 04 извлечение информации

ПравилаПравила

приписывается конкретному опорному приписывается конкретному опорному слову слову

описывает на какой тип отношений описывает на какой тип отношений указывает данное словоуказывает данное слово

следует ли сохранять данное слово в следует ли сохранять данное слово в качестве опорного или необходимо качестве опорного или необходимо отбросить его и перейти к следующему, отбросить его и перейти к следующему, указанному правилом.указанному правилом.

Page 50: 04 извлечение информации

Примеры правил: Примеры правил: тождествотождество

ОбозначениеОбозначение1.1. Тип отношения меняется на Тип отношения меняется на SameSame2.2. Записывается следующее (по Записывается следующее (по

дереву) существительноедереву) существительное

СОЦИОСФЕРА - СОЦИОСФЕРА - обозначениеобозначение человечествачеловечества, общества, а также , общества, а также освоенной человеком природной освоенной человеком природной среды, в совокупности составляющих среды, в совокупности составляющих часть географической оболочки.часть географической оболочки.

Page 51: 04 извлечение информации

ЯвлениеЯвление

1.1. Записывается «явление»Записывается «явление»

2.2. Тип отношения меняется на Тип отношения меняется на SameSame

3.3. Записывается следующее (по дереву) Записывается следующее (по дереву) существительноесуществительное

СИНЕСТЕЗИЯ - СИНЕСТЕЗИЯ - явление восприятияявление восприятия, , когда при раздражении данного когда при раздражении данного органа чувств наряду со органа чувств наряду со специфическими для него специфическими для него ощущениями возникают и ощущениями возникают и ощущения , соответствующие ощущения , соответствующие другому органу чувств.другому органу чувств.

Примеры правил: Примеры правил: тождествотождество

Page 52: 04 извлечение информации

ЯвлениеЯвление

1.1. Записывается «явление»…Записывается «явление»… атмосферное явление, физическое атмосферное явление, физическое

явлениеявление ИЗОМЕРИЯ - явление, заключающееся в ИЗОМЕРИЯ - явление, заключающееся в

существовании изомеров - соединений, существовании изомеров - соединений, одинаковых по составу и молекулярной одинаковых по составу и молекулярной массе, но различающихся по строению массе, но различающихся по строению или расположению атомов в или расположению атомов в пространстве.пространстве.

Зачем нужен первый Зачем нужен первый пунктпункт

Page 53: 04 извлечение информации

1.1. Записать – Записать – <<имя отношенияимя отношения> - > - следующее существительноеследующее существительное

2.2. <<имя отношенияимя отношения> - > - следующее следующее существительноесуществительное

3.3. Сложные правилаСложные правила

Общий вид правилОбщий вид правил

Page 54: 04 извлечение информации

Род, вид, сорт…Род, вид, сорт… <Gen> - <Gen> - следующее существительное.следующее существительное.

ФИЛЬДЕПЕРС - высший ФИЛЬДЕПЕРС - высший сортсорт фильдекосафильдекоса..

ПИДЖИНЫ - ПИДЖИНЫ - тип тип языковязыков, используемых , используемых как средство межэтнического общения как средство межэтнического общения в среде разноязычного населения.в среде разноязычного населения.

Примеры правил: Примеры правил: обобщениеобобщение

Page 55: 04 извлечение информации

ЖанрЖанр Записать - Записать - <Gen> - <Gen> - следующее следующее

существительное.существительное.

МИСТЕРИЯ - МИСТЕРИЯ - жанржанр средневекового средневекового западноевропейского западноевропейского религиозного религиозного театратеатра..

Примеры правил: Примеры правил: обобщениеобобщение

Page 56: 04 извлечение информации

СовокупностьСовокупность <Part> - <Part> - следующее следующее

существительное.существительное.

АРХИВ - АРХИВ - совокупностьсовокупность документовдокументов, , образовавшихся в результате образовавшихся в результате деятельности учреждений, деятельности учреждений, предприятий и отдельных лиц. предприятий и отдельных лиц.

Примеры правил: частьПримеры правил: часть

Page 57: 04 извлечение информации

CCкоплениекопление Записать - Записать - <Part> - <Part> - следующее следующее

существительное.существительное.

ГАНГЛИЙ - анатомически обособленное ГАНГЛИЙ - анатомически обособленное скоплениескопление нервных нервных клетокклеток , волокон и , волокон и сопровождающей их ткани .сопровождающей их ткани .

НО:НО:

ПНЕВМОТОРАКС - ПНЕВМОТОРАКС - скопление воздуха скопление воздуха или газов в полости плевры.или газов в полости плевры.

Примеры правил: частьПримеры правил: часть

Page 58: 04 извлечение информации

ЧастьЧасть <Whole> - <Whole> - следующее следующее

существительное.существительное.

АЛГЕБРА - АЛГЕБРА - частьчасть математикиматематики , , развивающаяся в связи с задачей развивающаяся в связи с задачей о решении алгебраических о решении алгебраических уравнений. уравнений.

Примеры правил: целоеПримеры правил: целое

Page 59: 04 извлечение информации

УчастокУчасток Записать - Записать - <Whole> - <Whole> - следующее следующее

существительное.существительное.

АНТИКОДОН - АНТИКОДОН - участокучасток транспортной транспортной РНКРНК, состоящий из трех нуклеотидов., состоящий из трех нуклеотидов.

НО:НО:

ИМЕНИЕ - ИМЕНИЕ - земельный участок земельный участок с с усадьбой.усадьбой.

Примеры правил: целоеПримеры правил: целое

Page 60: 04 извлечение информации

Метод, способМетод, способ <Func> - <Func> - следующее существительное.следующее существительное.

ЗАИЛЕНИЕ - ЗАИЛЕНИЕ - методметод мелиорации мелиорации песчаных земель. песчаных земель.

СГРАФФИТО - СГРАФФИТО - способ способ декоративнойдекоративной отделкиотделки стен, при котором рисунок стен, при котором рисунок процарапывается в верхнем слое процарапывается в верхнем слое штукатурки и обнажается нижний штукатурки и обнажается нижний слой, отличающийся по цвету.слой, отличающийся по цвету.

Примеры правил: Примеры правил: инструмент/назначениеинструмент/назначение

Page 61: 04 извлечение информации

ОрудиеОрудие Записать - Записать - <Func> - <Func> - следующее следующее

существительное.существительное.

ПЕРЕМЕТ - ПЕРЕМЕТ - орудие лова орудие лова рыбы рыбы (главным образом хищной).(главным образом хищной).

НО:НО:

артиллерийское орудиеартиллерийское орудие

орудие трудаорудие труда

Примеры правил: Примеры правил: инструмент/назначениеинструмент/назначение

Page 62: 04 извлечение информации

Инструмент, прибор, Инструмент, прибор, аппарат…аппарат…

1.1. ЗаписатьЗаписать

2.2. Перейти к следующему предлогуПерейти к следующему предлогу

3.3. Если это Если это длядля: : Func Func – следующее – следующее существительное.существительное.

ФЕН - электрический ФЕН - электрический аппарат аппарат длядля сушкисушки волос. волос.

«Сложные» правила«Сложные» правила

Page 63: 04 извлечение информации

Записать - Записать - <Other> - <Other> - следующее следующее существительное.существительное.

АБОРТ - АБОРТ - прерывание беременностипрерывание беременности в в сроки до 28 недель (то есть до момента, сроки до 28 недель (то есть до момента, когда возможно рождение когда возможно рождение жизнеспособного плода).жизнеспособного плода).

ХОМИНГ - ХОМИНГ - способность животного способность животного возвращаться со значительного возвращаться со значительного расстояния на свой участок обитания, расстояния на свой участок обитания, к гнезду, логову и т. д.к гнезду, логову и т. д.

Другие типы Другие типы отношенийотношений

Page 64: 04 извлечение информации

характеристика распространение

признак переход

свойство извлечение

число превращение

показатель введение

степень выделение

количество возникновение

характер нарушение

масса прерывание

состояние развитие

способность образование

место увеличение

источник уменьшение

Другие типы Другие типы отношенийотношений

Page 65: 04 извлечение информации

18 правил18 правил 91 опорное слово, для которого 91 опорное слово, для которого

существуют правилосуществуют правило 8484 статей, для которых 8484 статей, для которых

используютсяиспользуются 4679 различных опорных слов4679 различных опорных слов 1978 опорных терминов1978 опорных терминов

Правила: резюмеПравила: резюме

Page 66: 04 извлечение информации

Экспертная оценка, 200 словарных Экспертная оценка, 200 словарных статейстатей

90% случаев (179 статей) решения 90% случаев (179 статей) решения совпали с результатами, полученными совпали с результатами, полученными автоматическиавтоматически

21 случай ошибок:21 случай ошибок: 16 случаев – неточности алгоритма16 случаев – неточности алгоритма 5 случаев – опорное слово отсутствует в 5 случаев – опорное слово отсутствует в

тексте определенийтексте определений

ОценкаОценка

Page 67: 04 извлечение информации

АБРАЗИВНЫЙ АБРАЗИВНЫЙ ИНСТРУМЕНТИНСТРУМЕНТ - - служит для механической обработки служит для механической обработки ( шлифование, притирка и другие ).( шлифование, притирка и другие ).

АВОГАДРО АВОГАДРО ЗАКОНЗАКОН - в равных - в равных объемах идеальных газов при объемах идеальных газов при одинаковых давлении и температуре одинаковых давлении и температуре содержится одинаковое число содержится одинаковое число молекул.молекул.

АБИТУРИЕНТ - в большинстве стран АБИТУРИЕНТ - в большинстве стран - - оканчивающийоканчивающий среднее учебное среднее учебное заведение.заведение.

Page 68: 04 извлечение информации

Результаты логико-Результаты логико-лингвистического анализа лингвистического анализа представляются в виде таблицы представляются в виде таблицы ПИДЖИН язык GEN Текст

определения

ЗАИЛЕНИЕ мелиорация FUNC Текст определения

ФЕН аппарат GEN Текст определения

ФЕН сушка FUNC Текст определения

ПАРСЕК единица GEN Текст определения

единица измерения

Пополнение онтологииПополнение онтологии

Page 69: 04 извлечение информации

Указание базового концепта Указание базового концепта онтологической таксономиионтологической таксономии

Формирование Формирование энциклопедической выборкиэнциклопедической выборки

Добавление терминов выборкиДобавление терминов выборки ПостредактированиеПостредактирование

Процедура пополненияПроцедура пополнения

Page 70: 04 извлечение информации

Базовый концепт: Базовый концепт: СУДНОСУДНО

Энциклопедическая выборка:Энциклопедическая выборка:балкер баржа барк барка баркас баркентина брандвахта брандер бриг балкер баржа барк барка баркас баркентина брандвахта брандер бриг

бригантина бригантина газовоз газотурбоход галера галион глиссер бригантина бригантина газовоз газотурбоход галера галион глиссер джонка дизель-электроход землесосный снаряд землечерпальный джонка дизель-электроход землесосный снаряд землечерпальный снаряд иол катамаран катамаран кеч килектор клинкер клипер снаряд иол катамаран катамаран кеч килектор клинкер клипер ковчег корабль военный коч кунгас ледокол лихтер лодка нис пароход ковчег корабль военный коч кунгас ледокол лихтер лодка нис пароход парусное судно плашкоут понтон приз прорезь рыбоконсервная парусное судно плашкоут понтон приз прорезь рыбоконсервная плавучая база рыбопромысловая база сейнер скампавея струг суда плавучая база рыбопромысловая база сейнер скампавея струг суда обеспечения судно на воздушной подушке судно на подводных обеспечения судно на воздушной подушке судно на подводных крыльях судно научно-исследовательское тендер теплоход траулер крыльях судно научно-исследовательское тендер теплоход траулер тримаран турбоход шлюп шхуна электроход яхта тримаран турбоход шлюп шхуна электроход яхта

С учетом отношения С учетом отношения НИЖЕНИЖЕ::ШЛЮПКАШЛЮПКА: : баркас вельбот гичка туз баркас вельбот гичка туз

БАРЖАБАРЖА: : шаландашаланда

Пополнение онтологии: Пополнение онтологии: примерпример

Page 71: 04 извлечение информации

ИсточникиИсточники Gaizauskas, R., Wilks, Y., 1998. Information Extraction: Gaizauskas, R., Wilks, Y., 1998. Information Extraction:

Beyond Document RetrievalBeyond Document Retrieval - - httphttp://://www.aclclp.org.twwww.aclclp.org.tw//clclpclclp/v3n2/v3n2a2.pdf/v3n2/v3n2a2.pdf

Cunningham, H. Information Extraction, AutomaticCunningham, H. Information Extraction, Automatic -- http://gate.ac.uk/sale/ell2/ie/main.pdfhttp://gate.ac.uk/sale/ell2/ie/main.pdf

Appelt D. Introduction to information extraction - AI Communications 12 (1999) 161–172

Feldman R., Sanger J. The Text MiningHandbook –Feldman R., Sanger J. The Text MiningHandbook – Cambridge University Press, 2007Cambridge University Press, 2007

Dan Jurafsky From Languages to Information. Lecture 15: Relation Extraction - http://www.stanford.edu/class/cs124/

Dan Jurafsky From Languages to Information. Lecture 7: Named Entity Tagging - http://www.stanford.edu/class/cs124/

Татьяна Ландо Автоматическое извлечение фактов из Татьяна Ландо Автоматическое извлечение фактов из текста на примере сервиса Яндекс.Пресс-портреты – текста на примере сервиса Яндекс.Пресс-портреты – http://mathlingvo.ru/nlpseminar/archive/s_32


Top Related