Савостин. Системы и методы научного поиска и...

Системы и методы научного поиска и мониторинга

Савостин Петр 425 группа Научные руководители:

Н.Э. Ефремова, Е.И.Большакова

Содержание• Научный поиск • Методы научного поиска

• Поиск по ключевым словам • Поиск по образцу • Поиск по теме

• Краткий обзор систем научного поиска и мониторинга

• Заключение

2

Научный поиск• Научный поиск - поиск исключительно научной информации по нужной тематике или сфере исследования

• Объекты поиска: • похожие по тематике научные работы • патенты • ученые и исследовательские коллективы, работающих в определенном направлении

• конференции • журналы

3

Методы научного поиска• Поиск по ключевым словам: поиск вхождений заданных ключевых слов в • название и аннотацию документа • весь документ

• Поиск по образцу: сопоставление с указанными пользователем примерами • список литературы • документ/несколько документов

• Поиск по теме (латентно-семантический анализ): отнесение документа к некоторой теме

4

Поиск по ключевым словам1. Задаются ключевые слова - поисковый запрос 2. Документ рассматривается как неупорядоченное

множество слов (словосочетаний) 3. Каждому слову документа приписывается вес:

• tf (term frequency) - частота слова в документе • tf*idf • BM25 и пр.

4. Документ и запрос представляются как вектора слов

5. Вычисляется степень схожести между запросом и документом:

• косинусная мера • коэффициент Дайса

5

BM25

tf(t,D) - частота появления слова t в документе D tf(t,Q) - частота появления слова t в запросе Q df(t) - количество документов, где есть слово t dl - объем словаря коллекции dlavg - средняя длина документов в коллекции N - число документов в коллекции k1 - параметр для калибровки (стандартно выставляется 1.2) b - параметр для калибровки (стандартно выставляется 0.75)

6

BM25 и tf-idf

Отличия от меры tf-idf: • Учитывает длину документов в коллекции • За счет изменения параметров k1, b возможна настройка меры BM25 под определенную коллекцию

7

Косинусная мера• Дано два вектора весов A и B:

• A = (A1,A2,…,An) - вектор документа • B = (B1,B2,…,Bn) - вектор запроса

• Так как координаты векторов неотрицательные, значение косинусной меры изменяется в диапазоне [0,1]

• Мера эффективна для оценки разреженных векторов

8

Достоинства и недостатки поиска по ключевым словам

• Достоинства: • Удобное представление документа в виде вектора • Возможность ранжирования документов по мере снижения значения меры сходства

• Недостатки: • При представлении документа в виде неупорядоченного множества слов не учитывается порядок слов в документе. Например, предложения: «Андрей быстрее Артема» и«Артем быстрее Андрея» имеют один и тот же вектор

• Нет функции ранжирования, которая будет работать одинаково хорошо на разных коллекциях

9

Поиск по образцу1. Задается образец (фрагмент текста, список

литературы, документ) 2. Ищутся документы, похожие на образец

• Если задан список литературы, то: • можно искать документы с похожим списком • можно просто искать документы из списка

• Одними из способов поиска по образцу является классификация документов

• Если образец явно не задан, возможно проведение кластеризации документов

10

Пример алгоритма поиска по образцу• В работе [James Lewis etc., 2006] за основу алгоритма взят tf-idf

• Поиск осуществляется по базе данных MEDLINE • Запрос может состоять из нескольких предложений • Схема взвешивания слов:

для запроса

для документа

• В качестве меры схожести используется косинусная мера

11

Классификация документов• Имеется множество классов • Существует неизвестная функция (классификатор), способная определить для документа его класс

• Имеется множество вручную размеченных документов, для которых значения классификатора известны

• Происходит «обучение» классификатора на тренировочной выборке документов

• Построенный классификатор применяется к новым документам

• Как правило, документы представляются в виде векторов признаков (слов)

• Используется понятие схожести документов • Алгоритмы классификации: решающие деревья, наивный байесовский классификатор, метод опорных векторов, нейронные сети и др.

12

Кластеризация документов• Имеется множество документов • Необходимо их разбить на кластеры похожих документов • В разных кластерах документы должны быть как можно более отличны

• Главное отличие кластеризации от классификации - перечень кластеров четко не задан и определяется в процессе работы алгоритма

• Алгоритм должен самостоятельно принимать решение о количестве и составе кластеров

• Как правило, документы представляются в виде векторов слов

• Используется понятие схожести документов • Алгоритмы кластеризации: k-средних, алгоритм минимального покрывающего дерева и др.

13

Достоинства и недостатки поиска по образцу

• Достоинства: • Позволяет находить действительно похожие документы, поскольку запрос большего объема, чем при использовании ключевых слов

• Позволяет провести более четкую границу между похожими и непохожими текстами

• Недостатки: • Нужно иметь образец • Разные алгоритмы кластеризации могут выдавать разные разбиения документов на группы

• Классификатору нужна репрезентативная выборка для того, чтобы классификация проходила качественно

14

Поиск по теме• Основная задача - сопоставить документу некоторую тему (несколько тем)

• Основной подход - латентно-семантический анализ (ЛСА): попытка описать семантическую взаимосвязь документов и встречающихся в них слов путем объединения семантически схожих слов в темы и сопоставления этих тем документам

• Имеется множество документов - коллекция • Коллекция переставляется в виде матрицы сопоставления слов из словаря коллекции количеству совпадений этого слова в документе i

• Нужно получить матрицу сопоставления документов темам

• Применяются методы разложения матриц

15

ЛСА. Пример

16

Достоинства и недостатки поиска по теме

• Достоинства: • Достаточно хорошо выявляются скрытые зависимости внутри множества документов

• Частично снимается полисемия и омонимия

• Недостатки: • Значительное снижение скорости вычисления при увеличении объема входных данных

• Результаты сложно интерпретировать • При представлении документа в виде неупорядоченного множества слов не учитывается порядок слов в документе

17

https://ru.wikipedia.org/wiki/%D0%9F%D0%BE%D0%BB%D0%B8%D1%81%D0%B5%D0%BC%D0%B8%D1%8F

https://ru.wikipedia.org/wiki/%D0%9E%D0%BC%D0%BE%D0%BD%D0%B8%D0%BC%D0%B8%D1%8F

Системы научного поиска и мониторинга

• Google Scholar - поиск по полным текстам научных публикаций всех форматов и дисциплин (2004 год)

• eTBLAST - поиск по базам данных MEDLINE, NASA, IOP

• Система «Научный поиск» РГБ - поиск по диссертациям и авторефератам РГБ (2007 год)

• Exactus Expert - поиск по статьям в журналах из списка ВАК, авторефератам диссертаций, трудам конференций и др., тематический анализ, анализ научных текстов, анализ научных направлений

18

Exactus Expert

19

Возможности Exactus Expert• Поиск осуществляется по базе, которая состоит из:

• Журналов ВАК • Иностранных журналов • Авторефератов • Материалов с конфереций • Российских и иностранных патентов

• Поиск публикаций: • по ключевым словам • расширенный поиск по:

• Авторам • Заглавиям • Годам публикаций • По структуре публикаций (определения, источники)

• Дополнительные возможности: исследование публикационной активности по заданной тематике, оценка качества научного текста

20

Сервис «Научный поиск»

21

Возможности сервиса «Научный поиск»

• Поиск осуществляется по базе данных диссертаций Российской Государственной Библиотеки

• Поиск по документу или его части • Результат работы - список документов, которые содер-жат полные или частичные совпадения с исследуемым

• Можно ознакомиться с копией документа и запустить поиск связанных с ним документов

• Ввод данных осуществляется с помощью: • Ручного набора • Загрузки файла (*.txt,*.pdf,*.doc,*.html) • Указание URL документа

22

Заключение• Существуют достаточно много методов научного поиска, позволяющих частично решать задачу нахождения нужных пользователю документов

• Существуют системы, которые позволяют частично решать задачи научного поиска • Результаты поиска могут по-разному ранжироваться

• Из-за ограниченности области поиска часть информации не находится

23

СПАСИБО ЗА ВНИМАНИЕ!

Савостин. Системы и методы научного поиска и...

Education