Н аивный байесовский классификатор
DESCRIPTION
Н аивный байесовский классификатор. к.х.н . Варламова Екатерина Владимировна. Задача про рак груди. Только 15%(!) врачей отвечают правильно. 1% женщин в возрасте 40 лет, участвовавших в регулярных обследованиях, имеют рак груди. - PowerPoint PPT PresentationTRANSCRIPT
Наивный байесовский
классификаторк.х.н. Варламова Екатерина
Владимировна
Задача про рак груди
1% женщин в возрасте 40 лет, участвовавших в регулярных обследованиях, имеют рак груди.
80% женщин с раком груди имеют положительный результат маммографии.
9.6% здоровых женщин также получают положительный результат (маммография, как любые измерения, не дает 100% результатов).
Женщина-пациент из этой возрастной группы получила положительный результат на регулярном обследовании.
Какова вероятность того, что она фактически больна раком груди?
Только 15%(!) врачей отвечают правильно
Решение задачи про рак грудиВозьмем 10 000 женщин.
До маммографии женщин можно разделить на 2 группы:
Группа 1: 100 женщин больных раком груди.
Группа 2: 9,900 женщин не больных раком груди.
После маммографии женщин можно разделить на 4 группы:
Группа A: 80 женщин больных раком груди, и с положительной маммограммой.
Группа B: 20 женщин больных раком груди, и с отрицательной маммограммой.
Группа C: 950 женщин не больных раком груди, и с положительной маммограммой.
Группа D: 8,950 женщин не больных раком груди, и с отрицательной маммограммой.
Группа A: 80 женщин больных раком груди, и с положительной маммограммой.
Группа C: 950 женщин не больных раком груди, и с положительной маммограммой.
Вероятность того, что женщина с положительной маммограммой фактически больна раком груди:
Доля (A) в (A + C)
80 / (80 + 950) = 80 / 1030 = 7.8%.
Термины теоремы Байеса
Исходная доля пациенток с раком груди называется в статистике априорной вероятностью.
Шанс, что пациентка с раком груди получить положительную маммограмму, и шанс, что пациентка без рака получит положительную маммограмму, называются условными вероятностями.
Результат - ожидаемая вероятность, что пациентка больна раком груди, если ее маммограмма положительна, - называется апостериорной вероятностью.
Априорная информация
Обозначения теоремы Байеса
p(положительный): 0.103p(~положительный): 0.897
p(рак): 0.01p(~рак): 0.99
p(положительный|рак): 80.0% p(~положительный|рак):
20.0%
p(положительный|~рак):
9.6%
p(~положительный|~рак):
90.4% p(рак&положительный):
0.008
p(рак&~положительный):
0.002
p(~рак&положительный):
0.095
p(~рак&~положительный):
0.895
p(рак|положительный): 7.80%p(~рак|положительный):
92.20%
p(рак|~положительный):
0.22%
p(~рак|~положительный):
99.78%
Теорема Байеса
где
— априорная вероятность гипотезы A;
— вероятность гипотезы A при наступлении события B (апостериорная
вероятность);
— вероятность наступления события B при истинности гипотезы A;
— полная вероятность наступления события B.
,
Доказательство теоремы Байеса
Вероятность совместного события AB двояко выражается через условные вероятности:
Следовательно
Задача для тренировки ума
Предположим, что в бочке находится множество маленьких пластиковых капсул.
Некоторые капсулы окрашены в красный цвет, некоторые - в синий.
У 40% от всех капсул внутри жемчужина, 60% пусты.
В синий цвет окрашены 30% капсул, содержащих жемчужины, и 10% пустых капсул.
Какова вероятность, что синяя капсула содержит жемчужину?
И еще одна задачка
У Вас есть большой контейнер, содержащий кучу пластиковых капсул.
Некоторые из них содержат жемчужины, остальные пусты. Некоторые капсулы окрашены в синий цвет, остальные в красный.
Предположим, что 40% капсул синие,
5/13 от капсул, содержащих жемчужины, синие,
и 20% капсул одновременно пустые и красные.
Какова вероятность, что синяя капсула содержит жемчужину?
Наивный байесовский классификатор
Множество объектов D = {d1, d2, ..., dm},
Признаки объектов F = {f1, f2, ..., fq},
Множество меток C = {c1, c2, ..., cr}.
Признаки не зависят друг от друга
Размытие по Лапласу
где z >= 0 — коэффициент размытия, q — это количество параметров.
Наивный байесовский классификатор для непрерывных параметров
𝑐𝑀𝐴𝑃=𝑎𝑟𝑔𝑚𝑎𝑥𝑐∈𝐶 ( ln λ𝑐 𝑃𝑐+∑𝑖=1
𝑛
ln𝑝 ( 𝑓 𝑖∨𝑐 )), - величина потери при отнесении объекта к неправильному классу, - плотность вероятности признака объекта.
𝑝 ( 𝑓 𝑖∨𝑐 )=∑𝑖=1
𝑚1
𝑚𝑉 (h )𝐾 ( 𝜌 (𝑑 ,𝑑𝑖 )
h )где m – количество элементов выборки D ∋ di, ρ – мера на D, h – окрестность di (”ширина окна”), K – функция ядра, V (h) – нормирующий множитель.
Наивный байесовский классификатор для непрерывных параметров
В качестве функции ядра используется ядро Епанечникова:
𝐾 (𝑟 )=34
(1−𝑟2 ), 𝑟 ≤1
𝑉 (h )=∫𝐷
❑
𝐾 ( 𝜌 (𝑑 ,𝑑𝑖 )h )𝑑(𝑑)
Для определения меры используется Евклидова метрика:
𝜌 (𝑑 ,𝑑𝑖 )=√∑𝑖=1
𝑛
(𝑑−𝑑𝑖 )2
Преимущества и недостатки Простота реализации и низкие
вычислительные затраты при обучении и классификации;
В тех редких случаях, когда признаки (почти) независимы, наивный байесовский классификатор (почти) оптимален;
Относительная простота интерпретации.
Преимущества
Недостатки Низкое качество классификации. Он
используется как эталон при экспериментальном сравнении алгоритмов;
Неспособность учитывать зависимость результата от сочетания признаков.
Ограничения Пригоден для выборок с независимыми параметрами.
Применение метода
Оценка надежности банка,
Классификация структурированной информации,
Фильтрация спама,
Классификация налогоплательщиков и заемщиков по группам риска,
Оценка реализации продукции,
Обнаружение корпоративного мошенничества.
Построение модели в R
Построение модели в R хорошо описано в следующем источнике:
http://habrahabr.ru/post/184574/
Спасибо завнимание