Компьютерное зрение как универсальный контроллер для...

50
Компьютерное зрение как универсальный контроллер для интерактивных мультимедиа Перевалов Денис Сергеевич [email protected] видео: www.youtube.com/perevalovds#g/u лекции: www.uralvision.blogspot.com Институт Математики и Механики УрО РАН http://www.instablogsimages.com/images/2008/01/04/aperture-interactive-display_48.jpg

Upload: denis-perevalov

Post on 27-Jul-2015

865 views

Category:

Documents


3 download

TRANSCRIPT

Page 1: Компьютерное зрение как универсальный контроллер для интерактивных мультимедиа

Компьютерное зрение как универсальный контроллер для интерактивных мультимедиа

Перевалов Денис Сергеевич

[email protected] видео: www.youtube.com/perevalovds#g/u

лекции: www.uralvision.blogspot.com

Институт Математики и Механики УрО РАН

http://www.instablogsimages.com/images/2008/01/04/aperture-interactive-display_48.jpg

Page 2: Компьютерное зрение как универсальный контроллер для интерактивных мультимедиа

Содержание

1. Что такое контроллер2. Компьютерное зрение как универсальный контроллер3. Видеокамеры для компьютерного зрения4. Контроллеры на основе компьютерного зрения I5. Контроллеры на основе компьютерного зрения II6. Технологии программирования7. Перспективы

Page 3: Компьютерное зрение как универсальный контроллер для интерактивных мультимедиа

1. Что такое контроллер

Page 4: Компьютерное зрение как универсальный контроллер для интерактивных мультимедиа

Определение контроллераКонтроллер - любой сенсор, любой источник данных, из которого можно получить цифровой сигнал.

Proximity sensor

Page 5: Компьютерное зрение как универсальный контроллер для интерактивных мультимедиа

Стандартные музыкальные контроллеры

Midi padMidi keyboard

Midi track controlStandard instruments

with MIDI outputBreath controller

Фактически, они являются музыкальными инструментами или приставками к инструментам, выдающими цифровые данные о звуке вместо звука.

Page 6: Компьютерное зрение как универсальный контроллер для интерактивных мультимедиа

Контроллеры движений человека

Биодатчики

Motion Capture

http://neurocenter.unige.ch/groups/pun.php

Multitouch

Page 7: Компьютерное зрение как универсальный контроллер для интерактивных мультимедиа

Контроллеры физических явлений

Волны на воде

Aleatoric water musical instrumenthttp://www.youtube.com/watch?v=CZ_KijiwQHE

Page 8: Компьютерное зрение как универсальный контроллер для интерактивных мультимедиа

Контроллеры стохастические

Интернет, данные с фондовых бирж

Траектории насекомых

"Debug - art by insects"http://vimeo.com/12645870

Page 9: Компьютерное зрение как универсальный контроллер для интерактивных мультимедиа

2. Компьютерное зрение как универсальный контроллер

Page 10: Компьютерное зрение как универсальный контроллер для интерактивных мультимедиа

Что такое компьютерное зрение

Компьютерное зрение - отрасль компьютерных наук, занимающаяся вопросами автоматического анализа изображений, получаемых с помощью цифровых видео и фото камер.

Page 11: Компьютерное зрение как универсальный контроллер для интерактивных мультимедиа

Что такое компьютерное зрение

Примеры задач, решаемых с помощью компьютерного зрения:

Сегментация Анализ движения(оптический поток)

Page 12: Компьютерное зрение как универсальный контроллер для интерактивных мультимедиа

Что такое компьютерное зрение

Примеры задач, решаемых с помощью компьютерного зрения:

Трекинг положения объектов и их размер Motion Capture

http://armi.kaist.ac.kr/korean/UserFiles/File/MMPC.JPG

Page 13: Компьютерное зрение как универсальный контроллер для интерактивных мультимедиа

Компьютерное зрение как универсальный контроллер Любые параметры физических процессов, выражающиеся в механическом движении, изменении формы, цвета, прозрачностимогут быть оцифрованы с помощью компьютерного зрения.

Page 14: Компьютерное зрение как универсальный контроллер для интерактивных мультимедиа

Компьютерное зрение как универсальный контроллерОтличие компьютерного зрения от остальных типов сенсоров: 1) возможность считывания огромного числа данных (матрица пикселов).

2) возможность структурировать эти данные, извлекая из изображения нужные параметры (например, положение и размер объектов).

Page 15: Компьютерное зрение как универсальный контроллер для интерактивных мультимедиа

Ограничения контроллеров на основе компьютерного зрения

1. В силу большого количества данных контроллеры, основанные на компьютерном зрении, обычно работают с большой задержкой. 2. В силу того, что камеры снимают объект с некоторого расстояния, точность снятия сигнала может быть недостаточной. 3. Для работы камер нужен свет. (Видимый или ИК, но какой-то нужен).

(Это в подробностях рассмотрим далее)

Page 16: Компьютерное зрение как универсальный контроллер для интерактивных мультимедиа

3. Видеокамеры для компьютерного зрения

Page 17: Компьютерное зрение как универсальный контроллер для интерактивных мультимедиа

Основные характеристики камер

Для разных задач обработки в реальном режиме времени нужны разные видеокамеры. Их основные характеристики: 1. Разрешающая способность 2. Число кадров в секунду 3. Тип получаемых данных

Page 18: Компьютерное зрение как универсальный контроллер для интерактивных мультимедиа

Разрешающая способностьЭто размер изображения в пикселах, получаемого с камеры.

http://www.mtlru.com/images/klubnik1.jpg

320 x 240 точность измерения

при наблюдении объекта размером 1м:

3.13 ммразмер 30 кадров:

6.6 Мб

640 x 480точность измерения

при наблюдении объекта размером 1м:

1.56 мм

размер 30 кадров:26.4 Мб

1280 x 1024точность измерения

при наблюдении объекта размером 1м:

0.97 мм

размер 30 кадров:112.5 Мб

Page 19: Компьютерное зрение как универсальный контроллер для интерактивных мультимедиа

Число кадров в секундуЭто число картинок, получаемых с камеры за секунду.

30 к/сек

время между кадрами:33 мсек

60 к/сек

время между кадрами:16 мсек

150 к/сек

время между кадрами: 6 мсек

Можно использовать для музыкального

инструментаhttp://www.youtube.com/watch?v=7iEvQIvbn8o

Page 20: Компьютерное зрение как универсальный контроллер для интерактивных мультимедиа

Тип получаемых данныхКакие данные получаем с камеры для обработки.

Цветная или полутоновая картинка

видимого спектра

Инфракрасное изображение

Используя невидимую

глазу ИК-подсветку, такая камера будет видетьв темном помещении

(на перфомансе)

Цветное изображение + глубина(информация о расстоянии до объектов)

Page 21: Компьютерное зрение как универсальный контроллер для интерактивных мультимедиа

Примеры камер

Sony PS3 Eye 320 x 240 : 150 FPS640 x 480 : 60 FPS

Типы данных:видимый свет,ИК (требуется удаление ИК-фильтра)

Цена: 50$. USB, CCD

Page 22: Компьютерное зрение как универсальный контроллер для интерактивных мультимедиа

Примеры камер

Point Grey Flea3

648 x 488 : 120 FPS

Тип данных:- видимый свет,- ИК (?)

Цена: 600$. Модель FL3-FW-03S1C-C IEEE 1394b, CCD

Page 23: Компьютерное зрение как универсальный контроллер для интерактивных мультимедиа

Примеры камер

Microsoft Kinect

640 x 480 : 30 FPS

Тип данных:видимый свет + глубина

Цена: 150$. (глубина - методом модулированного ИК,не работает при солнечном свете)USB, CMOS

Page 24: Компьютерное зрение как универсальный контроллер для интерактивных мультимедиа

Примеры камер

Point Grey BumbleBee2

640 x 480 : 48 FPS

Тип данных:видимый свет + глубина

Цена: 2000$. (Глубина - методом стереозрения двумя камерами)IEEE 1394b, CCD

Page 25: Компьютерное зрение как универсальный контроллер для интерактивных мультимедиа

4. Контроллеры на основе компьютерного зрения I

Page 26: Компьютерное зрение как универсальный контроллер для интерактивных мультимедиа

Слайдеры и кнопки - камерой

- Камера может снимать положение реального слайдера, и мы получим его значение без электроники.- Слайдером или кнопкой может быть Ваш палец, если он находится в определенном месте.

Page 27: Компьютерное зрение как универсальный контроллер для интерактивных мультимедиа

Слайдеры и кнопки - камерой

Аддитивный синтезатор на основе анализа положение пальцев камерой

Page 28: Компьютерное зрение как универсальный контроллер для интерактивных мультимедиа

Слайдеры и кнопки - камерой

Вырезание виртуальной фигуры, используя два цветовых маркера

Page 29: Компьютерное зрение как универсальный контроллер для интерактивных мультимедиа

Гироскоп с помощью камеры = AR

Augmented Reality with Markers6-dimensions: X, Y, Z, 3 axes on rotation

http://www.edhv.nl/edhv/wp-content/uploads/2009/12/aug_Picture-10_no-border-450x337.jpg

Page 30: Компьютерное зрение как универсальный контроллер для интерактивных мультимедиа

Multitouch

FTIR multitouch

http://www.touchuserinterface.com/2010/02/lcd-multi-touch-using-inverted-ftir.htmlhttp://sites.google.com/site/ideolabsdocumentation/images/multitouchdiagram.png

Page 31: Компьютерное зрение как универсальный контроллер для интерактивных мультимедиа

Перчатки виртуальной реальности

Распознавание по цветам (прототип), проект MIT

http://www.csail.mit.edu/videoarchive/research/gv/hand-tracking

Page 32: Компьютерное зрение как универсальный контроллер для интерактивных мультимедиа

Motion Capture

Microsoft Kinect для XBox(Motion capture пока доступно только для разработчиков XBox. С OpenKinect можно в Windows получать цветное изображение + глубину. Об отношении Microsoft к OpenKinect см. http://www.thinq.co.uk/2010/11/22/microsoft-declares-openkinect-safe/)

Page 33: Компьютерное зрение как универсальный контроллер для интерактивных мультимедиа

Выводы

Достоинства использования специфических типов датчиков - они работают более точно и быстро. Достоинство применения компьютерного зрения в таких случаях: - быстрота реализации для построения прототипа и - универсальность (одну камеру можно использовать для реализации разных датчиков)

Page 34: Компьютерное зрение как универсальный контроллер для интерактивных мультимедиа

5. Контроллеры на основе компьютерного зрения II

Page 35: Компьютерное зрение как универсальный контроллер для интерактивных мультимедиа

Определение областей движения

Результат - координаты областей, где есть движение.

Page 36: Компьютерное зрение как универсальный контроллер для интерактивных мультимедиа

Вычисление оптического потока

Результат - 2D поле направлений движения объектов в кадре.ы

Page 37: Компьютерное зрение как универсальный контроллер для интерактивных мультимедиа

Обнаружение интересующих объектов и измерение их характеристик

Результат: координаты и размеры найденных интересующих объектов.

Page 38: Компьютерное зрение как универсальный контроллер для интерактивных мультимедиа

Невизуальные структуры на изображении- Сумма яркостей в наборе пикселов, разбросанном по изображению.

- Определенные частоты фурье-преобразования изображения. Такие характеристики "невизуальные", так как не связаны явно с областями на изображении или какими-то объектами или их характеристиками.В то же время, они не являются случайными и потому также применяются.

Page 39: Компьютерное зрение как универсальный контроллер для интерактивных мультимедиа

Выводы

Реализация таких контроллеров с помощью других типов датчиков - обычно весьма дорогостоящая, и иногда требует построения специфического оборудования.

Page 40: Компьютерное зрение как универсальный контроллер для интерактивных мультимедиа

6. Технологии программирования

Page 41: Компьютерное зрение как универсальный контроллер для интерактивных мультимедиа

Низкоуровневые средства

"Open Computer Vision Library" Открытая библиотека с набором функций для обработки, анализа и распознавания изображений, C/C++.

Page 42: Компьютерное зрение как универсальный контроллер для интерактивных мультимедиа

Низкоуровневые средства

"Open Graphics Library" Открытая библиотека для скоростной графики, C/С++.

Page 43: Компьютерное зрение как универсальный контроллер для интерактивных мультимедиа

Низкоуровневые средства

"Open Computing Language" Открытая библиотека распараллеливания вычислений, в частности, средствами GPU, C/С++.Позволяет значительно ускорить скорость вычислений. В частности, сейчас создается реализация OpenCV на OpenCL.

Page 44: Компьютерное зрение как универсальный контроллер для интерактивных мультимедиа

Среднеуровневые средства

Это платформы для "Creative coding", включающие в себя большой набор функций и библиотек, интегрированных для удобного программирования.

openFrameworks язык: C/C++

Processing язык: Java Для компьютерного зрения Java работает медленно.

Cinder язык: C/C++Недавно появился,набирает популярность

Page 45: Компьютерное зрение как универсальный контроллер для интерактивных мультимедиа

Высокоуровневые средства

Среды "визуального программирования", позволяющее реализовывать проекты без фактического программирования. Важно, что их можно расширять плугинами, сделанными в низкоуровневых средах.

Max/MSP/Jitter Ориентирован на аудио.

VVVV Ориентирован на видеоэффекты.

Quest3D Ориентирован на качественный 3D.

Page 46: Компьютерное зрение как универсальный контроллер для интерактивных мультимедиа

Перспективы

Page 47: Компьютерное зрение как универсальный контроллер для интерактивных мультимедиа

Технологические перспективы

- Появление большего числа камер, выдающих глубину с FPS > 100, для повышения скорости реакции компьютерного зрения - Повышение разрешающей способности камер + скорости обработки, для повышения точности получаемых данных в пространственной и временной шкалах.

Page 48: Компьютерное зрение как универсальный контроллер для интерактивных мультимедиа

Алгоритмические перспективы

- Реализация устойчивого распознавания мимики человека.

- Распознавание сложных трехмерных сцен, состоящих из многих загороженных объектов. (Используя камеры с глубиной).

http://susiemander.files.wordpress.com/2010/10/facial-expression.jpg

Page 49: Компьютерное зрение как универсальный контроллер для интерактивных мультимедиа

Идейные перспективыТребуется развитие творческих идей по применению новых технологий.1. Сегодня технология Multitouch не реализует весь потенциал своих возможностей.

2. Непонятно, как использовать технологию Motion Capture для управления аудио-видео генерацией.

Page 50: Компьютерное зрение как универсальный контроллер для интерактивных мультимедиа

Идейные перспективы

- Поиск новых и необычных процессов, видимых камерой.

- Поиск новых интересных структур, которые можно выделять на изображении. Для новой интерпретации обычных явлений.