Савостин. Системы и методы научного поиска и...
TRANSCRIPT
Системы и методы научного поиска и мониторинга
Савостин Петр 425 группа Научные руководители:
Н.Э. Ефремова, Е.И.Большакова
Содержание• Научный поиск • Методы научного поиска
• Поиск по ключевым словам • Поиск по образцу • Поиск по теме
• Краткий обзор систем научного поиска и мониторинга
• Заключение
2
Научный поиск• Научный поиск - поиск исключительно научной информации по нужной тематике или сфере исследования
• Объекты поиска: • похожие по тематике научные работы • патенты • ученые и исследовательские коллективы, работающих в определенном направлении
• конференции • журналы
3
Методы научного поиска• Поиск по ключевым словам: поиск вхождений заданных ключевых слов в • название и аннотацию документа • весь документ
• Поиск по образцу: сопоставление с указанными пользователем примерами • список литературы • документ/несколько документов
• Поиск по теме (латентно-семантический анализ): отнесение документа к некоторой теме
4
Поиск по ключевым словам1. Задаются ключевые слова - поисковый запрос 2. Документ рассматривается как неупорядоченное
множество слов (словосочетаний) 3. Каждому слову документа приписывается вес:
• tf (term frequency) - частота слова в документе • tf*idf • BM25 и пр.
4. Документ и запрос представляются как вектора слов
5. Вычисляется степень схожести между запросом и документом:
• косинусная мера • коэффициент Дайса
5
BM25
tf(t,D) - частота появления слова t в документе D tf(t,Q) - частота появления слова t в запросе Q df(t) - количество документов, где есть слово t dl - объем словаря коллекции dlavg - средняя длина документов в коллекции N - число документов в коллекции k1 - параметр для калибровки (стандартно выставляется 1.2) b - параметр для калибровки (стандартно выставляется 0.75)
6
BM25 и tf-idf
Отличия от меры tf-idf: • Учитывает длину документов в коллекции • За счет изменения параметров k1, b возможна настройка меры BM25 под определенную коллекцию
7
Косинусная мера• Дано два вектора весов A и B:
• A = (A1,A2,…,An) - вектор документа • B = (B1,B2,…,Bn) - вектор запроса
• Так как координаты векторов неотрицательные, значение косинусной меры изменяется в диапазоне [0,1]
• Мера эффективна для оценки разреженных векторов
8
Достоинства и недостатки поиска по ключевым словам
• Достоинства: • Удобное представление документа в виде вектора • Возможность ранжирования документов по мере снижения значения меры сходства
• Недостатки: • При представлении документа в виде неупорядоченного множества слов не учитывается порядок слов в документе. Например, предложения: «Андрей быстрее Артема» и«Артем быстрее Андрея» имеют один и тот же вектор
• Нет функции ранжирования, которая будет работать одинаково хорошо на разных коллекциях
9
Поиск по образцу1. Задается образец (фрагмент текста, список
литературы, документ) 2. Ищутся документы, похожие на образец
• Если задан список литературы, то: • можно искать документы с похожим списком • можно просто искать документы из списка
• Одними из способов поиска по образцу является классификация документов
• Если образец явно не задан, возможно проведение кластеризации документов
10
Пример алгоритма поиска по образцу• В работе [James Lewis etc., 2006] за основу алгоритма взят tf-idf
• Поиск осуществляется по базе данных MEDLINE • Запрос может состоять из нескольких предложений • Схема взвешивания слов:
для запроса
для документа
• В качестве меры схожести используется косинусная мера
11
Классификация документов• Имеется множество классов • Существует неизвестная функция (классификатор), способная определить для документа его класс
• Имеется множество вручную размеченных документов, для которых значения классификатора известны
• Происходит «обучение» классификатора на тренировочной выборке документов
• Построенный классификатор применяется к новым документам
• Как правило, документы представляются в виде векторов признаков (слов)
• Используется понятие схожести документов • Алгоритмы классификации: решающие деревья, наивный байесовский классификатор, метод опорных векторов, нейронные сети и др.
12
Кластеризация документов• Имеется множество документов • Необходимо их разбить на кластеры похожих документов • В разных кластерах документы должны быть как можно более отличны
• Главное отличие кластеризации от классификации - перечень кластеров четко не задан и определяется в процессе работы алгоритма
• Алгоритм должен самостоятельно принимать решение о количестве и составе кластеров
• Как правило, документы представляются в виде векторов слов
• Используется понятие схожести документов • Алгоритмы кластеризации: k-средних, алгоритм минимального покрывающего дерева и др.
13
Достоинства и недостатки поиска по образцу
• Достоинства: • Позволяет находить действительно похожие документы, поскольку запрос большего объема, чем при использовании ключевых слов
• Позволяет провести более четкую границу между похожими и непохожими текстами
• Недостатки: • Нужно иметь образец • Разные алгоритмы кластеризации могут выдавать разные разбиения документов на группы
• Классификатору нужна репрезентативная выборка для того, чтобы классификация проходила качественно
14
Поиск по теме• Основная задача - сопоставить документу некоторую тему (несколько тем)
• Основной подход - латентно-семантический анализ (ЛСА): попытка описать семантическую взаимосвязь документов и встречающихся в них слов путем объединения семантически схожих слов в темы и сопоставления этих тем документам
• Имеется множество документов - коллекция • Коллекция переставляется в виде матрицы сопоставления слов из словаря коллекции количеству совпадений этого слова в документе i
• Нужно получить матрицу сопоставления документов темам
• Применяются методы разложения матриц
15
ЛСА. Пример
16
Достоинства и недостатки поиска по теме
• Достоинства: • Достаточно хорошо выявляются скрытые зависимости внутри множества документов
• Частично снимается полисемия и омонимия
• Недостатки: • Значительное снижение скорости вычисления при увеличении объема входных данных
• Результаты сложно интерпретировать • При представлении документа в виде неупорядоченного множества слов не учитывается порядок слов в документе
17
Системы научного поиска и мониторинга
• Google Scholar - поиск по полным текстам научных публикаций всех форматов и дисциплин (2004 год)
• eTBLAST - поиск по базам данных MEDLINE, NASA, IOP
• Система «Научный поиск» РГБ - поиск по диссертациям и авторефератам РГБ (2007 год)
• Exactus Expert - поиск по статьям в журналах из списка ВАК, авторефератам диссертаций, трудам конференций и др., тематический анализ, анализ научных текстов, анализ научных направлений
18
Exactus Expert
19
Возможности Exactus Expert• Поиск осуществляется по базе, которая состоит из:
• Журналов ВАК • Иностранных журналов • Авторефератов • Материалов с конфереций • Российских и иностранных патентов
• Поиск публикаций: • по ключевым словам • расширенный поиск по:
• Авторам • Заглавиям • Годам публикаций • По структуре публикаций (определения, источники)
• Дополнительные возможности: исследование публикационной активности по заданной тематике, оценка качества научного текста
20
Сервис «Научный поиск»
21
Возможности сервиса «Научный поиск»
• Поиск осуществляется по базе данных диссертаций Российской Государственной Библиотеки
• Поиск по документу или его части • Результат работы - список документов, которые содер-жат полные или частичные совпадения с исследуемым
• Можно ознакомиться с копией документа и запустить поиск связанных с ним документов
• Ввод данных осуществляется с помощью: • Ручного набора • Загрузки файла (*.txt,*.pdf,*.doc,*.html) • Указание URL документа
22
Заключение• Существуют достаточно много методов научного поиска, позволяющих частично решать задачу нахождения нужных пользователю документов
• Существуют системы, которые позволяют частично решать задачи научного поиска • Результаты поиска могут по-разному ранжироваться
• Из-за ограниченности области поиска часть информации не находится
23
СПАСИБО ЗА ВНИМАНИЕ!