Download - Ольга Мегорская "Качество поиска: экспертные оценки и исследование пользовательского поведения"
Я.Субботник, Алматы, 15 октября 2011 года
Руководитель группы асессоров Ольга Мегорская
Качество поиска: экспертные оценки и исследование пользовательского поведения
Оценка качества поиска
2
Зачем это нужно?
• Как наши внедрения влияют на качество?
• Улучшили по одному классу: не испортили ли по другому?
• Где есть «проблемные точки»?
3
Что для этого нужно?
• «Человеческие» оценки качества выдачи
• Формальные метрики качества поиска
• Понимание пользователя
4
Экспертные оценки: асессоры
5
Кто такие асессоры? • Обычные пользователи
• Есть в каждом регионе присутствия Яндекса
• В Казахстане у нас тоже есть команда
6
• Случайные запросы из потока
• Документы, нашедшиеся по этим запросам
• Оценки
Как работают асессоры?
7
Как работают асессоры?
8
Шкала релевантности Vital однозначно на первом месте
Useful дает авторитетный, очень полный и полезный ответ на запрос
Relevant+ отвечает на запрос
Relevant- имеет отношение к запросу, но в полной мере на запрос не отвечает
Irrelevant не отвечает на запрос
9
Для чего используются оценки асессоров? • Настройка поисковых алгоритмов
• Оценка качества поиска
10
Настройка поиска
11
Обучаем робота отличать хорошие документы от плохих
1. У нас есть набор для обучения – N яблок и M груш.
2. У Робота есть факторы: форма; цвет; вкус
12
Определяем признаки для набора
13
OMG! 14
Аналогично с релевантностью документов:
1. У робота – факторы
2. У нас - оценки асессоров
3. Робот ищет закономерности
4. Для любого неоцененного документа из Веба робот знает факторы:
Документ Х: Есть слова запроса; на документ кликают; на документ ссылаются.
Вероятно, Документ Х Релевантен запросу
15
Оценка: метрики качества поиска
16
Пример метрики: Pfound • Гипотеза:
• Пользователь идет сверху вниз
• Останавливается, если:
Нашел
Устал.
17
Правильно, левый!
Исторический график Pfound
Показывает, как внедрения влияют на качество поиска
Опечаточная врезка
18
Что не улавливает Pfound? • Проблему разнообразия выдачи
19
Разнообразие объектов: [Наполеон]
artclassic.edu.ru 20
Разнообразие потребностей:
[Название фильма]
0%
10%
20%
30%
40%
50%
60%
70%
80%
90%
100%
Старые
фильмы
Фильмы в
прокате
Будущие
фильмы
Другое
Отзывы/рецензии
Кадры/фото
Трейлер
Общая информация
Смотреть онлайн
Скачать
21
Понимание пользователей
22
Исследование пользовательского поведения:
• Пользовательские сессии
• Переформулировки и клики
• Эксперименты на выдаче
• Классификация запросов
23
Анализ сессий: Что хотел этот пользователь?
24
А этот?
25
Эксперименты на выдаче: • Выкатываем экспериментальный алгоритм на n% пользователей
• Смотрим на несколько метрик:
— Доля некликнутых
— Средняя позиция первого клика
— Еще 100500 других
26
Выделение тематик запросов: • Выбираем интересующие нас группы пользователей
• Составляем автоматический классификатор запросов
• Смотрим на распределение разных тематик запросов для разных групп пользователей
27
Выделение тематик запросов:
Пользователи Android VS пользователи IPhone
Android
IPhone
28
Битва титанов: Android vs. iPhone :
29
Битва титанов: iPhone vs. Android :
30
Спасибо!
31
Руководитель группы асессоров
Ольга Мегорская