Построение гендерного классификатора

Post on 16-Jun-2015

732 Views

Category:

Documents

1 Downloads

Preview:

Click to see full reader

TRANSCRIPT

Построение гендерного классификатора

Результаты экспериментов и пути дальнейшего улучшения алгоритма

Лев Шмаглит

Ярославский государственный университет им. П.Г. Демидова150000, г. Ярославль, ул. Советская, 14

Физический факультетКафедра динамики электронных систем

2

План доклада:

1. Задача понимания изображений. Вводные замечания.

2. Построение гендерного классификатора. Результаты экспериментов.

3. Обзор современных подходов, позволяющих увеличить вероятность распознавания.

3

Понимание изображений

Небо

Дорога

Знак

МашинаМашина

Машина

Машина

Машина

Машина

Здание

[Ivan Laptev. Human Action Recognition // MCVS 2011]

4

Понимание изображений

[Andrew Zisserman. Visual Search and Recognition // MCVS 2011]

Набор классов

Детектирование

Автобус

Машина

РаспознаваниеКлассификация

5

Детектирование• Сканирование

пирамиды масштабированных изображений окном

K

K

K

«не лицо»

«лицо»• Принятие решения

для каждого окна - классификация

6

Классификация

Входной фрагмент

XКлассификатор

),,,,( 21 mXf

Скалярное число

Сравнение с порогом

Решение

Обучающий набор

iXОПТИМИЗАЦИЯ

;,,,, 21 miXE

Вектор данных

Машинное обучение

7

Понимание изображений(компьютерное зрение)

Детектирование + Распознавание

Классификация(машинное обучение)

Оптимизация

8

Сколько пикселей относится к «людям»?

[Ivan Laptev. Human Action Recognition // MCVS 2011]

9

Сколько пикселей относится к «людям»?

[Ivan Laptev. Human Action Recognition // MCVS 2011]

10

Сколько пикселей относится к «людям»?

[Ivan Laptev. Human Action Recognition // MCVS 2011]

11

План доклада:

1. Задача понимания изображений. Вводные замечания.

2. Построение гендерного классификатора. Результаты экспериментов.

3. Обзор современных подходов, позволяющих увеличить вероятность распознавания.

12

Постановка задачи

Исходное изображение

Изображение с выделенными лицами

Распознавание пола

мм

мжж

Применение:• системы видеонаблюдения• Digital Signage

13

Пример работы алгоритма

14

Схема работы алгоритма

Выделение лиц Алгоритм на базе обучающей процедуры

Sparse Network of Winnows

Входное изображение

Решение

Масштабирование выделенных фрагментов

Линейный классификатор:Линейный дискриминантный анализ (LDA);

Метод опорных векторов (SVM)

Преобразование с помощью ядерной функции

Выравнивание гистограммы яркости

15

Алгоритм на базе SNoW

Вычисление SMQT признаков

001010010

Представление в виде вектора

82

Пересчет в виде

индекса

Wx

facex

Wx

nonfacex xMhxMh

Классификатор

Wx

ifacex xMhЕсли ))(( ))(())(( xMhxMh i

facexi

facex

))(())(( xMhxMh ifacexi

facex

Wxi

facex xMhЕсли ))((

Процедура обновления весов

16

Классификаторы KDDA и SVMЛинейные классификаторы с использованием ядра

для внесения нелинейности:

ядерная функция Гаусса

KDDA SVM

ASAASA

ASAA

WTHT

BTWT

BTWT

A maxarg

m

iiii bXXkyXf

1

),(sgn)(

2

2

2121 exp),(

zz

zzk

17

Методика обучения и тестирования

Выделение лиц (98,2%)Nilsson M., Nordberg J., Claesson I. Face Detection Using Local SMQT Features and Split Up

SNoW Classifier // Proceedings of IEEE Int. Conf. ICASSP, V. 2, P. 589-592, 2007

База изображений (2770 шт.)

Анализ работы алгоритмов

Удаление ложно выделенных фрагментовФормирование обучающей и тестовой баз выделенных фрагментов

Классификатор KDDA(81,5%)

Оптимизация параметров ядра с использованием кросвалидации и поиска по сетке

Классификатор SVM(89%)

ПредобработкаМасштабирование до разрешения 40 × 40 пикселей

Выравнивание гистограммы яркости

Обучающая база (300 шт.)

Тестовая база (100 шт.)

18

База обучающих изображений

• 2770 изображений• фронтальные лица• равномерное освещение • однородный фон

Мужчины Женщины Дети

19

Результаты экспериментов

Классификатор

KDDA

81,5%

Классификатор

SVM

89%

20

План доклада:

1. Задача понимания изображений. Вводные замечания.

2. Построение гендерного классификатора. Результаты экспериментов.

3. Обзор современных подходов, позволяющих увеличить вероятность распознавания.

21

Подходы связанные с модификацией схемы алгоритма

Выделение лиц Алгоритм на базе обучающей процедуры

Sparse Network of Winnows

Входное изображение

Решение

Масштабирование выделенных фрагментов

Линейный классификатор:Линейный дискриминантный анализ (LDA);

Метод опорных векторов (SVM)

Преобразование с помощью ядерной функции

Выравнивание гистограммы яркости

1. Уточнение области лица после его выделения

Выделенная область квадратная, она наложена на лицо не точно, как по положению, так и по масштабу

Реализация: а) оценка положения глаз б) выделение овальной маской, захватывающей определенный процент лицевых пикселей, классифицированных до этого по цвету; в) фильтрация краевых эффектов.

Потенциальный выигрыш: 3 - 5 %

22

Подходы связанные с модификацией схемы алгоритма

Выделение лиц Алгоритм на базе обучающей процедуры

Sparse Network of Winnows

Входное изображение

Решение

Масштабирование выделенных фрагментов

Линейный классификатор:Линейный дискриминантный анализ (LDA);

Метод опорных векторов (SVM)

Преобразование с помощью ядерной функции

Выравнивание гистограммы яркости

2. Использование информации из областей рядом с лицом

Лица могут быть очень похожи, в то время как другие части тела и одежда могут сильно отличаться

Реализация: эмпирическое задание рамки, захватывающей нужные области, исходя из размера и положения детектированного лица

Потенциальный выигрыш: 5 - 10%

23

Подходы связанные с модификацией схемы алгоритма

Выделение лиц Алгоритм на базе обучающей процедуры

Sparse Network of Winnows

Входное изображение

Решение

Масштабирование выделенных фрагментов

Линейный классификатор:Линейный дискриминантный анализ (LDA);

Метод опорных векторов (SVM)

Преобразование с помощью ядерной функции

Выравнивание гистограммы яркости

3. Переход в пространство признаков

Переход в пространство признаков позволяет достичь:

а) инвариантности к масштабу, освещенности, положению и т.п.;

б) выделения особенностей, характерных тому или иному классу.

Реализация: дескрипторы SIFT, PHOW, HOG, реализованные в библиотеках VL-Feet и OpenCV

Потенциальный выигрыш: 5 - 15%

24

SIFT дескрипторы

[Andrew Zisserman. Visual Search and Recognition // MCVS 2011]

Вектор SIFT размерностью 128 Визуальное слово

Построение гистограммы визуальных слов

25

HOG дескрипторы

[Andrew Zisserman. Visual Search and Recognition // MCVS 2011]

• Разбиение изображения на блоки• Вычисление гистограммы

градиентов

26

Подходы связанные с модификацией схемы алгоритма

Выделение лиц Алгоритм на базе обучающей процедуры

Sparse Network of Winnows

Входное изображение

Решение

Масштабирование выделенных фрагментов

Линейный классификатор:Линейный дискриминантный анализ (LDA);

Метод опорных векторов (SVM)

Преобразование с помощью ядерной функции

Выравнивание гистограммы яркости

4. Использование всех трех цветовых компонент

Три – лучше, чем одна

Реализация: а) переход в пространство HSV б) вычисление признаков независимо для каждой из компонент

Потенциальный выигрыш: 1 - 5%

27

Подходы связанные с модификацией схемы алгоритма

Выделение лиц Алгоритм на базе обучающей процедуры

Sparse Network of Winnows

Входное изображение

Решение

Масштабирование выделенных фрагментов

Линейный классификатор:Линейный дискриминантный анализ (LDA);

Метод опорных векторов (SVM)

Преобразование с помощью ядерной функции

Выравнивание гистограммы яркости

5. Усложнение ядра

Никогда заранее не известно, какое ядро будет лучше работать при конкретной задаче (полиномиальное, RBF, хи-квадрат и т.д.)

Кроме того, произведение (сложение) нескольких ядер, существенно увеличивает силу классификатора.

Реализация: SVM библиотеки: libSVM, SVMlight и т.д.

Потенциальный выигрыш: 5 - 10%

28

Выделение лиц (98,2%)Nilsson M., Nordberg J., Claesson I. Face Detection Using Local SMQT Features and Split Up

SNoW Classifier // Proceedings of IEEE Int. Conf. ICASSP, V. 2, P. 589-592, 2007

База изображений (2770 шт.)

Анализ работы алгоритмов

Удаление ложно выделенных фрагментовФормирование обучающей и тестовой баз выделенных фрагментов

Классификатор KDDA(81,5%)

Оптимизация параметров ядра с использованием кросвалидации и поиска по сетке

Классификатор SVM(89%)

ПредобработкаМасштабирование до разрешения 40 × 40 пикселей

Выравнивание гистограммы яркости

Обучающая база (300 шт.)

Тестовая база (100 шт.)

Подходы связанные с модификацией схемы обучения

1. Увеличение обучающей базы

Обучающих изображений всегда не хватает

Реализация: а) поиск новых изображений б) размножение изображений путем применения ротации, аффинного преобразования, изменения яркости / контраста

Потенциальный выигрыш: 100%

29

Выделение лиц (98,2%)Nilsson M., Nordberg J., Claesson I. Face Detection Using Local SMQT Features and Split Up

SNoW Classifier // Proceedings of IEEE Int. Conf. ICASSP, V. 2, P. 589-592, 2007

База изображений (2770 шт.)

Анализ работы алгоритмов

Удаление ложно выделенных фрагментовФормирование обучающей и тестовой баз выделенных фрагментов

Классификатор KDDA(81,5%)

Оптимизация параметров ядра с использованием кросвалидации и поиска по сетке

Классификатор SVM(89%)

ПредобработкаМасштабирование до разрешения 40 × 40 пикселей

Выравнивание гистограммы яркости

Обучающая база (300 шт.)

Тестовая база (100 шт.)

Подходы связанные с модификацией схемы обучения

2. Усложнение алгоритма оптимизации параметров ядра

Оптимизация ядра необходима, чтобы избежать переобучения и достигнуть наилучшей обобщающей способности

Реализация: а) кроссвалидация б) алгоритмы оптимизации (GA)

Потенциальный выигрыш: 1 - 10%

30

Выделение лиц (98,2%)Nilsson M., Nordberg J., Claesson I. Face Detection Using Local SMQT Features and Split Up

SNoW Classifier // Proceedings of IEEE Int. Conf. ICASSP, V. 2, P. 589-592, 2007

База изображений (2770 шт.)

Анализ работы алгоритмов

Удаление ложно выделенных фрагментовФормирование обучающей и тестовой баз выделенных фрагментов

Классификатор KDDA(81,5%)

Оптимизация параметров ядра с использованием кросвалидации и поиска по сетке

Классификатор SVM(89%)

ПредобработкаМасштабирование до разрешения 40 × 40 пикселей

Выравнивание гистограммы яркости

Обучающая база (300 шт.)

Тестовая база (100 шт.)

Подходы связанные с модификацией схемы обучения

3. Применение древовидной (каскадной) структуры

Объединение решений нескольких классификаторов всегда дает преимущество в итоговой вероятности распознавания

Следующий слой классификатора можно обучать на ошибках предыдущего

Реализация: а) каскадная структура б) дерево (решающий лес)

Потенциальный выигрыш: 5 - 10%

Построение гендерного классификатора

Результаты экспериментов и пути дальнейшего улучшения алгоритма

Лев Шмаглит

Ярославский государственный университет им. П.Г. Демидова150000, г. Ярославль, ул. Советская, 14

Физический факультетКафедра динамики электронных систем

top related