001умнов
DESCRIPTION
Я.Студент матфак 12.03.2014TRANSCRIPT
![Page 1: 001умнов](https://reader033.vdocuments.mx/reader033/viewer/2022060115/557cd340d8b42a4b6b8b4640/html5/thumbnails/1.jpg)
. . . . . .
Машинное обучение в Поиске идругих задачах
Умнов Алексей
![Page 2: 001умнов](https://reader033.vdocuments.mx/reader033/viewer/2022060115/557cd340d8b42a4b6b8b4640/html5/thumbnails/2.jpg)
. . . . . .
Введение
![Page 3: 001умнов](https://reader033.vdocuments.mx/reader033/viewer/2022060115/557cd340d8b42a4b6b8b4640/html5/thumbnails/3.jpg)
. . . . . .
Поиск в интернете
..........
мама
.
рама
.
мыть
.
мыть
![Page 4: 001умнов](https://reader033.vdocuments.mx/reader033/viewer/2022060115/557cd340d8b42a4b6b8b4640/html5/thumbnails/4.jpg)
. . . . . .
Поиск в интернете
..........
мама
.
рама
.
мыть
.
мыть
![Page 5: 001умнов](https://reader033.vdocuments.mx/reader033/viewer/2022060115/557cd340d8b42a4b6b8b4640/html5/thumbnails/5.jpg)
. . . . . .
Ранжирование
.........
![Page 6: 001умнов](https://reader033.vdocuments.mx/reader033/viewer/2022060115/557cd340d8b42a4b6b8b4640/html5/thumbnails/6.jpg)
. . . . . .
Примеры задач машинногообучения
![Page 7: 001умнов](https://reader033.vdocuments.mx/reader033/viewer/2022060115/557cd340d8b42a4b6b8b4640/html5/thumbnails/7.jpg)
. . . . . .
Фильтрация спама
Дано:Электронное письмо
Адрес отправителяТема письмаТекст письмаФайлы письма
Необходимо:Определить, является ли данное письмо спамом.
![Page 8: 001умнов](https://reader033.vdocuments.mx/reader033/viewer/2022060115/557cd340d8b42a4b6b8b4640/html5/thumbnails/8.jpg)
. . . . . .
Фильтрация спама
Дано:Электронное письмо
Адрес отправителяТема письмаТекст письмаФайлы письма
Необходимо:Определить, является ли данное письмо спамом.
![Page 9: 001умнов](https://reader033.vdocuments.mx/reader033/viewer/2022060115/557cd340d8b42a4b6b8b4640/html5/thumbnails/9.jpg)
. . . . . .
Фильтрация спама
Дано:Электронное письмо
Адрес отправителяТема письмаТекст письмаФайлы письма
Необходимо:Определить, является ли данное письмо спамом.
![Page 10: 001умнов](https://reader033.vdocuments.mx/reader033/viewer/2022060115/557cd340d8b42a4b6b8b4640/html5/thumbnails/10.jpg)
. . . . . .
Фильтрация спама
Дано:Электронное письмо
Адрес отправителяТема письмаТекст письмаФайлы письма
Необходимо:Определить, является ли данное письмо спамом.
![Page 11: 001умнов](https://reader033.vdocuments.mx/reader033/viewer/2022060115/557cd340d8b42a4b6b8b4640/html5/thumbnails/11.jpg)
. . . . . .
Медицинская диагностика
Дано:Пациент
Общие данныепол, возрастРезультаты обследованийтемпература, пульсСимптомыналичие головной боли
Необходимо:Определить, болен ли пациент болезнью X.
![Page 12: 001умнов](https://reader033.vdocuments.mx/reader033/viewer/2022060115/557cd340d8b42a4b6b8b4640/html5/thumbnails/12.jpg)
. . . . . .
Медицинская диагностика
Дано:Пациент
Общие данныепол, возрастРезультаты обследованийтемпература, пульсСимптомыналичие головной боли
Необходимо:Определить, болен ли пациент болезнью X.
![Page 13: 001умнов](https://reader033.vdocuments.mx/reader033/viewer/2022060115/557cd340d8b42a4b6b8b4640/html5/thumbnails/13.jpg)
. . . . . .
Медицинская диагностика
Дано:Пациент
Общие данныепол, возрастРезультаты обследованийтемпература, пульсСимптомыналичие головной боли
Необходимо:Определить, болен ли пациент болезнью X.
![Page 14: 001умнов](https://reader033.vdocuments.mx/reader033/viewer/2022060115/557cd340d8b42a4b6b8b4640/html5/thumbnails/14.jpg)
. . . . . .
Медицинская диагностика
Дано:Пациент
Общие данныепол, возрастРезультаты обследованийтемпература, пульсСимптомыналичие головной боли
Необходимо:Определить, болен ли пациент болезнью X.
![Page 15: 001умнов](https://reader033.vdocuments.mx/reader033/viewer/2022060115/557cd340d8b42a4b6b8b4640/html5/thumbnails/15.jpg)
. . . . . .
Особенности задач
Что общего у этих задач?
Существует «скрытый» алгоритм их решения.
Человека можно научить их решатьАлгоритм решения невозможно строгосформулировать
![Page 16: 001умнов](https://reader033.vdocuments.mx/reader033/viewer/2022060115/557cd340d8b42a4b6b8b4640/html5/thumbnails/16.jpg)
. . . . . .
Особенности задач
Что общего у этих задач?
Существует «скрытый» алгоритм их решения.
Человека можно научить их решать
Алгоритм решения невозможно строгосформулировать
![Page 17: 001умнов](https://reader033.vdocuments.mx/reader033/viewer/2022060115/557cd340d8b42a4b6b8b4640/html5/thumbnails/17.jpg)
. . . . . .
Особенности задач
Что общего у этих задач?
Существует «скрытый» алгоритм их решения.
Человека можно научить их решатьАлгоритм решения невозможно строгосформулировать
![Page 18: 001умнов](https://reader033.vdocuments.mx/reader033/viewer/2022060115/557cd340d8b42a4b6b8b4640/html5/thumbnails/18.jpg)
. . . . . .
Особенности задач
Необходимо решать задачу в большихобъемах
Человек решает задачу медленноНужно использовать машиныАлгоритма решения нетЕсть примеры решения
Машинное обучение —«обучение» программ напримерах.
![Page 19: 001умнов](https://reader033.vdocuments.mx/reader033/viewer/2022060115/557cd340d8b42a4b6b8b4640/html5/thumbnails/19.jpg)
. . . . . .
Особенности задач
Необходимо решать задачу в большихобъемахЧеловек решает задачу медленно
Нужно использовать машиныАлгоритма решения нетЕсть примеры решения
Машинное обучение —«обучение» программ напримерах.
![Page 20: 001умнов](https://reader033.vdocuments.mx/reader033/viewer/2022060115/557cd340d8b42a4b6b8b4640/html5/thumbnails/20.jpg)
. . . . . .
Особенности задач
Необходимо решать задачу в большихобъемахЧеловек решает задачу медленноНужно использовать машины
Алгоритма решения нетЕсть примеры решения
Машинное обучение —«обучение» программ напримерах.
![Page 21: 001умнов](https://reader033.vdocuments.mx/reader033/viewer/2022060115/557cd340d8b42a4b6b8b4640/html5/thumbnails/21.jpg)
. . . . . .
Особенности задач
Необходимо решать задачу в большихобъемахЧеловек решает задачу медленноНужно использовать машиныАлгоритма решения нет
Есть примеры решения
Машинное обучение —«обучение» программ напримерах.
![Page 22: 001умнов](https://reader033.vdocuments.mx/reader033/viewer/2022060115/557cd340d8b42a4b6b8b4640/html5/thumbnails/22.jpg)
. . . . . .
Особенности задач
Необходимо решать задачу в большихобъемахЧеловек решает задачу медленноНужно использовать машиныАлгоритма решения нетЕсть примеры решения
Машинное обучение —«обучение» программ напримерах.
![Page 23: 001умнов](https://reader033.vdocuments.mx/reader033/viewer/2022060115/557cd340d8b42a4b6b8b4640/html5/thumbnails/23.jpg)
. . . . . .
Особенности задач
Необходимо решать задачу в большихобъемахЧеловек решает задачу медленноНужно использовать машиныАлгоритма решения нетЕсть примеры решения
Машинное обучение —«обучение» программ напримерах.
![Page 24: 001умнов](https://reader033.vdocuments.mx/reader033/viewer/2022060115/557cd340d8b42a4b6b8b4640/html5/thumbnails/24.jpg)
. . . . . .
Задача машинного обучения
![Page 25: 001умнов](https://reader033.vdocuments.mx/reader033/viewer/2022060115/557cd340d8b42a4b6b8b4640/html5/thumbnails/25.jpg)
. . . . . .
Математическая формулировка
X —множество объектов, Y —множествоответов.
a∗ : X→ Y — неизвестный алгоритм.
Обучающая выборка T = {xi, yi}li=1, гдеyi = a∗(xi)—множество объектов и известныхна них ответов
Задача обучения — по выборке T построитьалгоритм a : X→ Y, который бы как можнолучше приближал a∗
![Page 26: 001умнов](https://reader033.vdocuments.mx/reader033/viewer/2022060115/557cd340d8b42a4b6b8b4640/html5/thumbnails/26.jpg)
. . . . . .
Математическая формулировка
X —множество объектов, Y —множествоответов.
a∗ : X→ Y — неизвестный алгоритм.
Обучающая выборка T = {xi, yi}li=1, гдеyi = a∗(xi)—множество объектов и известныхна них ответов
Задача обучения — по выборке T построитьалгоритм a : X→ Y, который бы как можнолучше приближал a∗
![Page 27: 001умнов](https://reader033.vdocuments.mx/reader033/viewer/2022060115/557cd340d8b42a4b6b8b4640/html5/thumbnails/27.jpg)
. . . . . .
Математическая формулировка
X —множество объектов, Y —множествоответов.
a∗ : X→ Y — неизвестный алгоритм.
Обучающая выборка T = {xi, yi}li=1, гдеyi = a∗(xi)—множество объектов и известныхна них ответов
Задача обучения — по выборке T построитьалгоритм a : X→ Y, который бы как можнолучше приближал a∗
![Page 28: 001умнов](https://reader033.vdocuments.mx/reader033/viewer/2022060115/557cd340d8b42a4b6b8b4640/html5/thumbnails/28.jpg)
. . . . . .
Математическая формулировка
X —множество объектов, Y —множествоответов.
a∗ : X→ Y — неизвестный алгоритм.
Обучающая выборка T = {xi, yi}li=1, гдеyi = a∗(xi)—множество объектов и известныхна них ответов
Задача обучения — по выборке T построитьалгоритм a : X→ Y, который бы как можнолучше приближал a∗
![Page 29: 001умнов](https://reader033.vdocuments.mx/reader033/viewer/2022060115/557cd340d8b42a4b6b8b4640/html5/thumbnails/29.jpg)
. . . . . .
Математическая формулировка
Признаки объектов
Признак — численная характеристика объектаОтображение f : X→ Df.Df — пространство значений.
Примеры Df:
Df = {0, 1}— бинарный признак.«есть ли в тексте письма слово “банк”»,«наблюдается ли у пациента жар».Df = R— количественный признак.Длина письма, возраст пациента.
![Page 30: 001умнов](https://reader033.vdocuments.mx/reader033/viewer/2022060115/557cd340d8b42a4b6b8b4640/html5/thumbnails/30.jpg)
. . . . . .
Математическая формулировка
Признаки объектов
Признак — численная характеристика объектаОтображение f : X→ Df.Df — пространство значений.
Примеры Df:
Df = {0, 1}— бинарный признак.«есть ли в тексте письма слово “банк”»,«наблюдается ли у пациента жар».Df = R— количественный признак.Длина письма, возраст пациента.
![Page 31: 001умнов](https://reader033.vdocuments.mx/reader033/viewer/2022060115/557cd340d8b42a4b6b8b4640/html5/thumbnails/31.jpg)
. . . . . .
Математическая формулировкаПостроение признаков не входит в задачумашинного обучения.
Машинное обучение: построение алгоритма a пообучающей выборке T и признакам объектовf1, . . . , fn.
Матрица признаков обучающей выборки
F = ‖fi(xj)‖i=1,...,nj=1,...,l
=
f1(x1) . . . fn(x1). . . . . . . . .
f1(xl) . . . fn(xl)
(f1(x), . . . , fn(x)
)— вектор признаков объекта
![Page 32: 001умнов](https://reader033.vdocuments.mx/reader033/viewer/2022060115/557cd340d8b42a4b6b8b4640/html5/thumbnails/32.jpg)
. . . . . .
Математическая формулировкаПостроение признаков не входит в задачумашинного обучения.
Машинное обучение: построение алгоритма a пообучающей выборке T и признакам объектовf1, . . . , fn.
Матрица признаков обучающей выборки
F = ‖fi(xj)‖i=1,...,nj=1,...,l
=
f1(x1) . . . fn(x1). . . . . . . . .
f1(xl) . . . fn(xl)
(f1(x), . . . , fn(x)
)— вектор признаков объекта
![Page 33: 001умнов](https://reader033.vdocuments.mx/reader033/viewer/2022060115/557cd340d8b42a4b6b8b4640/html5/thumbnails/33.jpg)
. . . . . .
Математическая формулировкаПостроение признаков не входит в задачумашинного обучения.
Машинное обучение: построение алгоритма a пообучающей выборке T и признакам объектовf1, . . . , fn.
Матрица признаков обучающей выборки
F = ‖fi(xj)‖i=1,...,nj=1,...,l
=
f1(x1) . . . fn(x1). . . . . . . . .
f1(xl) . . . fn(xl)
(f1(x), . . . , fn(x)
)— вектор признаков объекта
![Page 34: 001умнов](https://reader033.vdocuments.mx/reader033/viewer/2022060115/557cd340d8b42a4b6b8b4640/html5/thumbnails/34.jpg)
. . . . . .
Стадии машинного обучения
ОбучениеПостроение алгоритма a по обучающей выборке.
ПрименениеИспользование алгоритма a для полученияответов на неизвестных объектах.
![Page 35: 001умнов](https://reader033.vdocuments.mx/reader033/viewer/2022060115/557cd340d8b42a4b6b8b4640/html5/thumbnails/35.jpg)
. . . . . .
Примеры методов машинногообучения
![Page 36: 001умнов](https://reader033.vdocuments.mx/reader033/viewer/2022060115/557cd340d8b42a4b6b8b4640/html5/thumbnails/36.jpg)
. . . . . .
Для простоты будем считать, что
Y = R
Dfi = R для всех i
![Page 37: 001умнов](https://reader033.vdocuments.mx/reader033/viewer/2022060115/557cd340d8b42a4b6b8b4640/html5/thumbnails/37.jpg)
. . . . . .
Линейная регрессияРассматриваем линейные комбинации признаков
a(α, x) =n∑
i=1
αifi(x),
α = (α1, . . . , αn)— неизвестные коэффициенты.
Минимизация квадратичной ошибки
Q(α) =l∑
j=1
‖a(α, xj) − yj‖2
Q(α)→ minα
![Page 38: 001умнов](https://reader033.vdocuments.mx/reader033/viewer/2022060115/557cd340d8b42a4b6b8b4640/html5/thumbnails/38.jpg)
. . . . . .
Линейная регрессияРассматриваем линейные комбинации признаков
a(α, x) =n∑
i=1
αifi(x),
α = (α1, . . . , αn)— неизвестные коэффициенты.
Минимизация квадратичной ошибки
Q(α) =l∑
j=1
‖a(α, xj) − yj‖2
Q(α)→ minα
![Page 39: 001умнов](https://reader033.vdocuments.mx/reader033/viewer/2022060115/557cd340d8b42a4b6b8b4640/html5/thumbnails/39.jpg)
. . . . . .
Линейная регрессияВ матричной форме
F =
f1(x1) . . . fn(x1). . . . . . . . .
f1(xl) . . . fn(xl)
Q(α) = ‖Fα − y‖2
Минимизируем
∂Q∂α
= 2FT(Fα − y) = 0
α̂ =(FTF)−1
FTy
![Page 40: 001умнов](https://reader033.vdocuments.mx/reader033/viewer/2022060115/557cd340d8b42a4b6b8b4640/html5/thumbnails/40.jpg)
. . . . . .
Линейная регрессияВ матричной форме
F =
f1(x1) . . . fn(x1). . . . . . . . .
f1(xl) . . . fn(xl)
Q(α) = ‖Fα − y‖2
Минимизируем
∂Q∂α
= 2FT(Fα − y) = 0
α̂ =(FTF)−1
FTy
![Page 41: 001умнов](https://reader033.vdocuments.mx/reader033/viewer/2022060115/557cd340d8b42a4b6b8b4640/html5/thumbnails/41.jpg)
. . . . . .
Линейная регрессия
X
Y
![Page 42: 001умнов](https://reader033.vdocuments.mx/reader033/viewer/2022060115/557cd340d8b42a4b6b8b4640/html5/thumbnails/42.jpg)
. . . . . .
Линейная регрессия
X
Y
![Page 43: 001умнов](https://reader033.vdocuments.mx/reader033/viewer/2022060115/557cd340d8b42a4b6b8b4640/html5/thumbnails/43.jpg)
. . . . . .
Линейная регрессия
Общая схема
ОбучениеВычисление коэффициентов
α̂ =(FTF)−1
FTy
Применение
a(α̂, x) =n∑
i=1
αifi(x)
![Page 44: 001умнов](https://reader033.vdocuments.mx/reader033/viewer/2022060115/557cd340d8b42a4b6b8b4640/html5/thumbnails/44.jpg)
. . . . . .
Метод ближайшего соседа
Метрика на объектах
ρ : X × X→ RНапример евклидово расстояние междувекторами признаков
ρ(x, y) =
n∑i=1
(fi(x) − fi(y)
)212
![Page 45: 001умнов](https://reader033.vdocuments.mx/reader033/viewer/2022060115/557cd340d8b42a4b6b8b4640/html5/thumbnails/45.jpg)
. . . . . .
Метод ближайшего соседа
a(x) = yk, где k = argminj=1,...,l
ρ(xj, x)
xk —«ближайший сосед», yk — известный ответна нем.
![Page 46: 001умнов](https://reader033.vdocuments.mx/reader033/viewer/2022060115/557cd340d8b42a4b6b8b4640/html5/thumbnails/46.jpg)
. . . . . .
Метод ближайшего соседа
f1
f2
![Page 47: 001умнов](https://reader033.vdocuments.mx/reader033/viewer/2022060115/557cd340d8b42a4b6b8b4640/html5/thumbnails/47.jpg)
. . . . . .
Метод ближайшего соседа
f1
f2
![Page 48: 001умнов](https://reader033.vdocuments.mx/reader033/viewer/2022060115/557cd340d8b42a4b6b8b4640/html5/thumbnails/48.jpg)
. . . . . .
Метод ближайшего соседа
f1
f2
![Page 49: 001умнов](https://reader033.vdocuments.mx/reader033/viewer/2022060115/557cd340d8b42a4b6b8b4640/html5/thumbnails/49.jpg)
. . . . . .
Метод ближайшего соседа
Общая схема
ОбучениеЗапомнить всю обучающую выборку.
ПрименениеДля данного x найти ближайшего соседа xk вобучающей выборке и выдать в качестве ответаyk.
![Page 50: 001умнов](https://reader033.vdocuments.mx/reader033/viewer/2022060115/557cd340d8b42a4b6b8b4640/html5/thumbnails/50.jpg)
. . . . . .
Машинное обучение иранжирование
![Page 51: 001умнов](https://reader033.vdocuments.mx/reader033/viewer/2022060115/557cd340d8b42a4b6b8b4640/html5/thumbnails/51.jpg)
. . . . . .
Ранжирование страниц
Дано:
Запрос пользователяСписок результатов
Необходимо:Упорядочить страницы…в соответствии с их релевантностью
релевантность (запрос, результат)
![Page 52: 001умнов](https://reader033.vdocuments.mx/reader033/viewer/2022060115/557cd340d8b42a4b6b8b4640/html5/thumbnails/52.jpg)
. . . . . .
Ранжирование страниц
Дано:
Запрос пользователяСписок результатов
Необходимо:Упорядочить страницы
…в соответствии с их релевантностью
релевантность (запрос, результат)
![Page 53: 001умнов](https://reader033.vdocuments.mx/reader033/viewer/2022060115/557cd340d8b42a4b6b8b4640/html5/thumbnails/53.jpg)
. . . . . .
Ранжирование страниц
Дано:
Запрос пользователяСписок результатов
Необходимо:Упорядочить страницы…в соответствии с их релевантностью
релевантность (запрос, результат)
![Page 54: 001умнов](https://reader033.vdocuments.mx/reader033/viewer/2022060115/557cd340d8b42a4b6b8b4640/html5/thumbnails/54.jpg)
. . . . . .
Ранжирование страниц
Дано:
Запрос пользователяСписок результатов
Необходимо:Упорядочить страницы…в соответствии с их релевантностью
релевантность (запрос, результат)
![Page 55: 001умнов](https://reader033.vdocuments.mx/reader033/viewer/2022060115/557cd340d8b42a4b6b8b4640/html5/thumbnails/55.jpg)
. . . . . .
Оценка релевантности
Численные методы — БольшаяСоветская Энциклопедия Отлично
Математический анализ —Википедия Плохо
Реферат: Численные методылинейной алгебры Нормально
![Page 56: 001умнов](https://reader033.vdocuments.mx/reader033/viewer/2022060115/557cd340d8b42a4b6b8b4640/html5/thumbnails/56.jpg)
. . . . . .
Ранжирование страниц
Объекты — пары (запрос, страница)
Обучающая выборка —оценка релевантностис помощью ассессоров
Признаки
ТекстовыеПользовательскиеСтатические
Предсказание релевантности.
![Page 57: 001умнов](https://reader033.vdocuments.mx/reader033/viewer/2022060115/557cd340d8b42a4b6b8b4640/html5/thumbnails/57.jpg)
. . . . . .
Ранжирование страниц
Объекты — пары (запрос, страница)
Обучающая выборка —оценка релевантностис помощью ассессоров
Признаки
ТекстовыеПользовательскиеСтатические
Предсказание релевантности.
![Page 58: 001умнов](https://reader033.vdocuments.mx/reader033/viewer/2022060115/557cd340d8b42a4b6b8b4640/html5/thumbnails/58.jpg)
. . . . . .
Ранжирование страниц
Объекты — пары (запрос, страница)
Обучающая выборка —оценка релевантностис помощью ассессоров
Признаки
ТекстовыеПользовательскиеСтатические
Предсказание релевантности.
![Page 59: 001умнов](https://reader033.vdocuments.mx/reader033/viewer/2022060115/557cd340d8b42a4b6b8b4640/html5/thumbnails/59.jpg)
. . . . . .
Конец
Вопросы?
Дополнительные материалы1. Сайт www.MachineLearning.ru
К. В. Воронцов. Машинное обучение, курслекций.
2. К. Маннинг, П. Рагван, Х. Шютце.Введение в информационный поиск.