Когда тексты —не только слова

Post on 02-Jul-2015

254 Views

Category:

Internet

0 Downloads

Preview:

Click to see full reader

DESCRIPTION

Разговор будет строиться вокруг наивного Байесовского классификатора. Как его можно использовать для извлечения из текстов косвенной информации (например, отзывов о фильмах) и для разметки видеоматериалов с помощью содержательных тегов, обозначающих время и место действия, жанр и т.д.

TRANSCRIPT

Алексей Токарь

Руководитель группы разработки в

направлении медиасервисов

Когда тексты – не только слова

2

Типы повседневных задач

Алгоритмические

Технологические Инфраструктурные

3

Постановка задачи

Дано:

• 1.000.000 фильмов

• 250 тегов

4

Постановка задачи

Дано:

• 1.000.000 фильмов

• 250 тегов

Задача:

• разметить каждый фильм в среднем десятью

тегами

5

Постановка задачи

Дано:

• 1.000.000 фильмов

• 250 тегов

Задача:

• разметить каждый фильм в среднем десятью

тегами

Проблема:

• вручную это займет год ежедневной работы

Классификация

7

Популярные способы классификации

• нейронные сети

8

Популярные способы классификации

• нейронные сети

• генетические алгоритмы

9

Популярные способы классификации

• нейронные сети

• генетические алгоритмы

• деревья принятия решений

10

Популярные способы классификации

• нейронные сети

• генетические алгоритмы

• деревья принятия решений

• регрессионные деревья

11

Популярные способы классификации

• нейронные сети

• генетические алгоритмы

• деревья принятия решений

• регрессионные деревья

• наивный байесовский классификатор

12

Популярные способы классификации

• нейронные сети

• генетические алгоритмы

• деревья принятия решений

• регрессионные деревья

• наивный байесовский классификатор

• кластеризация

13

Почему байесовский классификатор

• Элементарен, чтобы оценить нашу модель

• Удобен, так как не требует эвристик в виде

черных списков

• Эффективен при достаточной обученности

• Отлично подходит для текстовых данных

14

Наивный байесовский классификатор

Pr(T|W) — вероятность, что тег характеризует сообщение,

при условии, что оно содержит это слово

Pr(W|T) — вероятность появления слова в сообщениях,

отмеченных этим тегом

Pr(W|~T) — вероятность появления слова в сообщениях,

если они к этому тегу не относятся

15

От сайта к индексу

Crawler

Splitter Lemmer

INDEX

16

Наиболее значащие слова

мультик

Смотреть с детьми детям

белка

дочь

пираты

Злодеи злодей

хулиганы

орангутанг

ёж

Животные животные

белка

обезьяна

17

Предложенные роботом:

• животные

• дружба

• смотреть с детьми

• цирк

• злодеи

• проклятия

• разные страны

Не предложены:

• пираты

• Земля

• природные катаклизмы

Ледниковый период 4

Предложенные роботом:

• наши дни

• романтика

• расследования

• любовь

• Франция

• смотреть с девушкой

Не предложены:

• криминал

• флирт

Девушка из Монако

20

Результаты

• Полнота прогнозирования – робот пропускает 2-3 тега, предложенных редакцией

• Точность классификации – робот ошибается на 1-2 тега

• Время работы всего несколько часов

21

Что можно сделать в будущем

• Исключение редких слов

• Удаление предлогов и местоимений

• Отсечение слов, составляющих шум

• Распараллеливание

Алексей Токарь

Руководитель группы разработки

в направлении медиасервисов

azazeltap@yandex-team.ru

Спасибо :)

top related