Методы интеграции разнородных онтологий
DESCRIPTION
Панасенко АлексейTRANSCRIPT
Методы интеграции разнородных онтологий
Панасенко Алексей, 525 группаНаучный руководитель Большакова Е.И.
2
Понятие онтологии
Онтология — это точная спецификация концептуализации. (Т. Грубер)
Концептуализация — это структура реальности, рассматриваемая независимо от словаря предметной области и конкретной ситуации.
3
Пример онтологии
Классификация вин– Вино
• Красное вино– Красное бургундское– …
• Белое вино– Белое бургундское– …
• Розовое вино– …
4
Применение онтологий
• Информационный поиск (Information retrieval)– Обеспечение концептуального
индексирования
• Семантический Веб (Semantic Web)– Автоматизация «интеллектуальных» задач
обработки значения ресурсов сети
5
Информационный поиск
Индексирование по
набору слов• Избыточность
• Независимость слов
• Многозначность слов
Концептуальное
индексирование• Синонимы объединены
• Есть связи между понятиями
• Многозначные слова разнесены по разным понятиям
6
Semantic Web
Основные концепции
• Расширяемый язык разметки XML.
• RDF – формат описания ресурсов.
• Формализация и обработка знаний на основе онтологического подхода.
7
Существующие проекты
• Автоматическое получение знаний– KnowItAll– TextRunner
• Ручное получение знаний– WordNet, Cyc, OpenCyc – построение экспертами– Freebase – построение сообществом– Semantic Wikipedia – добавление семантических
ссылок в существующие статьи
• Получение знаний из структурированных данных
8
YAGO
• Авторы – Fabian M. Suchanek, Gerhard Weikum
• Автоматическое получение знаний из WordNet и Wikipedia
• 1.7 миллиона сущностей
• 15 миллионов фактов
• Совместимость с RDFS
9
Особенности YAGO
• Используются данные из панелей информации (infoboxes) Wikipedia
• Используется таксономия WordNet
• Используются различные методики контроля качества
• Вводятся n-арные отношения
10
N-арные отношения
RDFSGrammyAward prize
elvisGetsGrammyElvis winner
elvisGetsGrammy1921 year
elvisGetsGrammy
YAGO#1 : Elvis hasWonPrize
GrammyAward#2 : #1 inYear 1967
Системавоспринимает:
Elvis hasWonPrizeGrammyAward inYear1967
11
Контроль качества
• Проверка на уникальность – добиваемся единственности всех сущностей и фактов
• Проверка на соответствие типу – добиваемся наличия у всех сущностей классов и удовлетворения всеми сущностями ограничений своих классов
12
Проверка на уникальность
• Проверка перенаправления – для каждой сущности в Wikipedia текст ссылки в панели информации может отличаться от названия статьи, на которую она ссылается.
• Удаление повторяющихся фактов и сущностей. Более точный факт необходимо оставить, менее точный – удалить.
13
Проверка на соответствие типу
• Редуцирующая проверка – если сущности невозможно сопоставить класс, то такую сущность необходимо исключить из онтологии.
• Индуцирующая проверка – если из имеющихся данных о сущности можно вывести какой-либо факт, то его необходимо включить в онтологию.
14
Эвристики YAGO
Для автоматизации слияния онтологий
используются следующие эвристики:
• Эвристики определения типа
• Эвристики определения сущностей
• Эвристики определения категории
15
Эвристики определения типа
• Категории Wikipedia объединены в ацикличный ориентированный граф, но используются только листья этого графа.
• Каждый synset WordNet становится классом онтологии, за исключением известных персон/мест
Synset – группа синонимов и синонимичных словосочетаний
16
Связь synset и категорий
• Каждую категорию разбивают на пре-модификатор, основу и пост-модификатор.
• Ищется лучший synset для пре-модификатора и основы. Если нашли – то наша категория – подкласс этого класса.
17
Связь synset и категорий 2
• Если synset не найден – то ищем лучший synset только для основы.
• Лучший synset – тот, к которому сам WordNet относит слово с максимальной вероятностью.
• Существует ограниченное число исключений – например слово capital (столица) WordNet с максимальной вероятностью принимает как финансовый термин
18
Пример связи категории и synset
American people in JapanПре-модификатор Основа Пост-модификатор
Основу привели в форму единственного числа
American person
Данному словосочетанию не соответствует ни
один synset. Значит ищем synset только для
основы.
Person – synset person/human, и значит
American people in Japan – подкласс person/human
19
Эвристики определения сущностей
• Активное использование списков синонимов из WordNet
• Использование перенаправлений Wikipedia
• Определение имен собственных – Эйнштейн означает то же, что и Альберт Эйнштейн
20
Эвристики определения категории
• Использование категорий Wikipedia – если статья имеет категорию «Реки Германии», то сущность isLocated Германия
• Эвристики определения категории могут быть не слишком строгими – лишние факты будут отброшены
21
Русскоязычный вариант
• Исходные онтологии– Русская Wikipedia– Онтология научных терминов НИВЦ МГУ
• 55 000 сущностей• 200 000 фактов• 140 000 синонимов
• Цель – дополнить онтологию НИВЦ МГУ данными из Wikipedia, сохранив преимущества экспертной классификации
22
Технические аспекты
• Онтология НИВЦ – база данных dBase• Русская Wikipedia – html-код• Результат – XML-схема онтологии в
формате RDFS• Провести полное тестирование
результирующей онтологии не представляется возможным, необходима система выборочного тестирования
23
Особенности эвристик
• Выборка идет не по всем категориям Wikipedia
• Более сложный лексический анализ при определении класса категории Wikipedia
• Нет вероятностей соответствия слова разным synset