多媒体技术 - home.ustc.edu.cnhome.ustc.edu.cn/~wynd/mmt/pdf/mmt_chap5_2013_pub.pdf ·...

第5章多媒体信息分析与处理

多媒体技术

授课内容

第一部分多媒体的计算第一章多媒体计算机系统第二章媒体处理技术第三章多媒体数据压缩

第二部分多媒体的存储第四章多媒体数据的数字存储

第三部分多媒体信息的分析与处理

第五章多媒体信息分析与处理

第四部分多媒体网络应用第六章实时多媒体通信

2


§5.1 引言

§5.1.1 从Apple的siri谈起

§5.1.2 信息检索技术概述

§5.2 信息检索

§5.1.2 文本搜索

§5.1.3 图像搜索

§5.1.4 音频搜索

§5.1.5 视频搜索

§5.3 内容分析

§5.3.1 音频内容分析

§5.3.1 图像内容分析

§5.3.1 视频内容分析

3

从Apple的siri谈起

Siri是苹果公司在其产品iphone 4S上应用的一项语音控制功能。利用Siri用户可以通过手机读短信、介绍餐厅、询问天气、语音设置闹钟等。Siri可以支持自然语言输入，并且可以调用系统自带的天

气预报、日程安排、搜索资料等应用，还能够不断学习新的声音和语调，提供对话式的应答。

Siri的背景

Siri成立于2007年，2010年被苹果以2亿美金收购，最初以文字聊天服务为主，后与语音识别厂商Nuance合作，Siri实现了语音识别功能。

Siri 技术来源于美国国防部高级研究规划局所公布的 CALO 计划：一

个让军方简化处理一些繁复庶务，并具学习、组织以及认知能力的数字助理，其所衍生出来的民用版软件 Siri 虚拟个人助理。

Siri的人机交互技术

在前端方面，即面向用户，和用户交互（User

Interface，UI）的技术，主要是语音识别以及语

音合成技术。语音识别技术是把用户的口语转化

成文字，其中需要强大的语音知识库，因此需要

用到所谓的“云计算”技术。而语音合成则是把

返回的文字结果转化成语音输出，这个技术理论

上本地就能完成，但不知道Siri是否如此，当然

，在云端完成也并无不可，在当前无线带宽下，

那点语音流量根本不算什么。

语音及语言信息处理国家工程实验室

2011年9月27日，由国家发改委批复成立的“语音及语言信息处理国家工

程实验室”揭牌仪式在中国科学技术大学西区活动中心大礼堂隆重举行。

工程实验室将依托中国科技大学建设语音合成研究室、语音识别研究室、

自然语言处理研究室、智能人机语音交互研究室等11个核心技术研究室，

并依托科大讯飞建设语音及语言技术研究及工程化应用的技术研发平台、

设计开发平台、测试验证平台和技术应用重大示范平台，进一步整合源头

核心技术研究资源并通过工程化平台形成产业界急需的先进科技成果，不

断提升智能语音技术与产业的核心竞争力。

Siri的后台技术

后台技术的目的就是处理用户的请求，并返回最匹配的结果，这些请求类型很多，千奇百怪，要处理好并不简单。基本的结构猜测可能是分析用户的输入（已经通过语音转化），根据输入类型，分别采用合适的技术（合适的技术后台）进行处理。这些合适的后台技术包括，①以Google 为代表的网页搜索技术；②以Wolfram Alpha 为代表的知识搜索技术（或者知识计算技术）；③以Wikipedia 为代表的知识库（和Wolfram Alpha 不同的是，这些知识来自人类的手工

编辑）技术（包括其他百科，如电影百科等）；④以Yelp 为代表的问答以及推荐技术。

Computational Knowledge Engine

Wolfram Alpha是由Wolfram Research公司推出

的一款在线自动问答系统。其特色是可以直接向

用户返回答案，而不是像其它搜索引擎一样提供

一系列可能含有用户所需答案的相关网页。

Wolfram Research公司的总裁斯蒂芬·沃尔夫勒姆

于2009年3月宣布了此项计划。该产品于2009年5

月15日正式发布。另外，Wolfram Alpha还在美

国Popular Science杂志的投票评选中获得2009年

度最伟大的科技创新产品的荣誉。

www.wolframalpha.com

用 Wolfram Alpha 进行查询的实例

mortgage 6%, 25 year, $140000 显示了按揭贷款应付利息随着时间的推移所发生的变化。

life expectancy france 25 year old male 预计一位法国25岁成年男性的寿命。

boiling point of water at 6 atm 给出在特定气压下水的沸点。

"What is the forty-eighth smallest country by GDP per capita?" （按人均GDP计算，第四

十八个最小的国家是哪个？）答案是：圣多美和普林西比，每年 1110 美元。

如果输入“China GDP”，出现的将不是一大堆网页，而是直观的数据和图表。包括：中

国GDP最新情况，从1970年至今的中国GDP增长情况（图表形式）、中国通货膨胀率、失

业人口率。

如果输入“How many people in China”，你可以看到目前中国的总人口数、人口密度、平

均每年人口增长率、预期寿命和平均年龄等数据。

如果输入“uncle's uncle's brother's son”，你将获得一份类似家谱的东西，当中包括血缘

关系的具体数据。而如果用户将同样的指令输入Google，获得的只是一些网页的清单。

搜狗搜索发布全新的知识库搜索引擎――“知立方”

搜狗于2012年11月23日在其官方微博中宣称：为了让

用户获取信息更简单，搜狗搜索发布全新的知识库搜索引擎――“知立方”。这是国内搜索引擎行业中首家知识库搜索产品。

比如搜索“张学友的电影”，搜狗搜索会在结果上方显示张学友的所有参演过的影片，右侧则展示张学友的人物关系、电视剧、专辑等相关信息，帮助用户更加立体和全面的了解张学友。

再比如搜索“范冰冰的身高”，一般的搜索引擎会给出很多包含“范冰冰身高”的页面，用户需要逐一点击寻找答案。搜狗知立方可以直接给出精准答案。

Wikipedia

维基百科（Wikipedia，是维基媒体基金会的商标）是一个自由、免费、内容开放的百科全书协作计划，参与者来自世界各地。

维基百科自2001年1月15日正式成立，截至2011年11月，已经有超过3172万的注册用户以及为数众多的未注册用户贡献了282种语言超过2024万篇的条目，其编辑次数已经超过12亿3192万次。

维基百科的中文版本中文维基百科正式开始于2002年10月24日，包括大陆简体，港澳繁体等。截至2011年11月16日已经有超过38.5万

篇中文条目。除了中文维基百科以外还设有其他独立运作的中文方言版本，包括粤语维基百科、闽南语维基百科、文言文维基百科、吴语维基百科、闽东语维基百科及客家语维基百科等。

中文问答系统

小结：siri的背后

人机交互：语音识别技术

检索有关

①以Google 为代表的网页搜索技术；

②以 Wolfram Alpha 为代表的知识搜索技术；

③以Wikipedia 为代表的知识库；

④以Yelp 为代表的问答以及推荐技术。


§5.1 引言



§5.2 信息检索

§5.1.2 文本搜索

§5.1.3 图像搜索

§5.1.4 音频搜索

§5.1.5 视频搜索

§5.3 内容分析




18

传统检索主要是基于文字的检索，然而随着网络与多媒体技术的飞速发展，对于多媒体信息（图像，音、视频）的检索正逐步成为研究的热点。

History of Search Engine

1990-1992

FTP search: Archie、Gopher、Veronica

1993

WWW & WWWW (World-Wide Web Wanderer)

1994

Yahoo!

1995-1997 【春秋战国】 Excite, AltaVista, ...

1998- 【一超多强】 Google, Baidu, Sogou, MSN, Compass

Who’s the next?

19

检索引擎发展趋势

第二代检索引擎

用户在网站上所花费时间来确定网站的重要性

精选网站检索引擎

人工挑选高质量的网站并按类别排列

超大型检索引擎

专业检索引擎

针对专门的需求进行检索的引擎

检索引擎的检索引擎

多媒体和图像检索引擎

google地图检索

百度地图

Google趋势、 Google学术、 Google翻译

百度识图

百度相册（http://xiangce.baidu.com/）

具有“人脸识别”功能。2012年11月12日，这一功能正式上线。它不仅让用户更加便捷地浏览和分享固定对象的图片，更让“图片社交”成为一种全新的社交方式。



http://www.searchenginecolossus.com/ 收集世界各国

检索引擎目录，按国家字母顺序排列

http://www.searchpower.com/ 世界最大的检索引擎

目录，收录2325个检索引擎，分类排列

http://www.searchengineguide.com/ 检索引擎指南，

收录2449个检索引擎，分类排列

中文检索的发展

1996年8月成立的搜狐1998年2月推出分类目录搜索引擎。

1997年6月创立的网易,全中文搜索引擎目录

1997年10月29日,北大天网,强大的ftp搜索功能。

1998年1月，台湾中正大学OpenFind中文搜索引擎 1999年2月2日，新浪网“新浪搜索”测试版 1999年9月，雅虎中国网站正式开通 1999年底成立于美国硅谷的百度推出新一代中文搜索引擎。 2000年9月12日，Google也开始启用中文搜索。

2004年6月雅虎推出全新“一搜”

2004年8月3日搜狐公司推出“搜狗”互动式中文搜索引擎。

2005年6月30日，新浪搜索引擎推出“爱问”专门搜索平台

小结：信息检索技术概述

Information OverheadInformation Retrieval

发展历史（1990-）

FTP search、Web Search……

检索技术分类

传统检索（文本检索）、图像检索、音乐检索和视频检索

检索引擎

通用Web检索、专业检索引擎、检索引擎的检索引擎、多

媒体和图像检索引擎


§5.1 引言

§5.2 信息检索

§5.1.2 文本搜索

§5.1.3 图像搜索

§5.1.4 音频搜索

§5.1.5 视频搜索

§5.3 内容分析




30

典型的搜索引擎体系结构

Conceptual Components of Search Engine

Crawler

Challenges

depth vs. wideness

granularity of real-time vs. effectiveness

Index

Challenges

huge amount of data

multiple data types and structures

Ranking

criteria

algorithm

User interface

Challenges

human experiences vs. machine implementation

32

信息检索的关键问题：为检索结果排序

对于一个关键字，当今的搜索引擎会返回数百

万个结果

用户显然不可能浏览所有的结果，相关研究表

明，一般不会超过前三页

一个好的排序算法相当重要

根据相关性排序

根据重要性排序

传统信息检索的局限

排序的重要性

当输入harvard关键字时， harvard的主页不一定

被排在最前面，因为有很多网页使用harvard的频

率远远高于harvard的主页.

相同相关程度的网页也太多.

网页不能自我描述

如 “search engine” 这个短语往往不会出现在搜索

引擎的网页上

著名的链接分析算法

HITS

描述了权威网页和中心网页之间的一种依赖关系：一个好

的中心网页应该指向很多好的权威性网页，而一个好的权

威性网页应该被很多好的中心性网页所指向。

PageRank

利用网络自身的超链接结构给所有的网页确定一个重要性

的等级数，当从网页A链接到网页B时，就认为“网页A投

了网页B一票”，增加了网页B的重要性。最后根据网页的

得票数评定其重要性，以此来帮助实现排序算法的优化。

HITS - Kleinberg’s Algorithm

HITS – Hypertext Induced Topic Selection

两个主要参数

a(v) - the authority of v

h(v) - the hubness of v

authority主要描述有多少重要的网页指向它

hubness主要描述它指向多少重要的网页

Authority and Hubness

2

3

4

1 1

5

6

7

a(1) = h(2) + h(3) + h(4) h(1) = a(5) + a(6) + a(7)

PageRank

Page et al (1998)提出网页的重要性取决于

指向它的链接Sergey Brin Larry Page

Page A = 0.15

Page B = 0.2775

Page C = 0.15

Page A = 1

Page B = 1

Page C = 1

Page A = 1.4592

Page B = 0.7702

Page C = 0.7702

Page A = 1.425

Page B = 1

Page C = 0.575


§5.1 引言

§5.2 信息检索

§5.1.2 文本搜索

§5.1.3 图像搜索

基于文本的图像检索

基于关键字的图像检索

基于内容的图像检索

§5.1.4 音频搜索

§5.1.5 视频搜索

§5.3 内容分析




39

什么是图像搜索引擎

基于网络的图像搜索引擎

从Internet的网页上搜集图片的服务

一些著名的图像搜索引擎

Google， Yahoo!， MSN， Baidu， …

一些自己不索引图像，将搜索关键字送到别

的搜索引擎搜索，然后将返回结果显示的网

站

图像检索的驱动力

网络上的数字图像越来越多 Internet

Storage

不断提高的数字图像技术扫描仪 DV

DC

数据源个人影集新闻贴图论坛或BBS

图像检索的历史

基于关键字的图像检索 70年代后期

基于内容的图像检索 90年代

基于文本的图像检索 21世纪

自动图像标注新的研究趋势

结合图像和文本信息

基于文本的图像检索

当前多数搜索引擎使用基于文本的图像检索

主要依靠图像周围的文字，图像文件名等信息

基于文本检索的缺陷

基于关键字(meta data)的图像检索

花照片植物郁金香黄色郁金香

基于关键字的图像检索:

DICOM 图象文件 CT图象：病人的每一幅断层图象生成相应的一个DICOM 图象文件

RT结构集：靶区、皮肤、敏感器官、中心位置和剂量参考点等

RT计划：治疗过程的几何和剂量数据，包括外照射治疗、近距离治疗计划、分形

、耐受性表、体位关系、控制点概念等

RT剂量：放疗剂量分布数据如相对剂量、绝对剂量、单次剂量、分割次数、射野

权重等

RT图象：从锥形成像设备如x射线模拟定位机和射野影像设备所得到的图像

基于关键字的图像检索

人工关键字标注

基于关键字排序

用关键字搜索

难点

人力耗费太大

不同标注者标注尺度不统一

什么是基于内容的图像检索？


先提取图像的特征颜色特征

纹理特征

形状特征

主要还在实验室阶段

一些著名的系统 IBM的QBIC

Columbia大学的WebSEEK

UCSB的Cortina system

图像特征示例：几何特征

图像的投影

图像的几何特征面积、周长、位置、方向

密集度：C=A/P2（P和A分别是图形的周长和面积）

体态比：区域的最小外接矩形的长与宽之比

圆形度：e=4πA/P2（P和A分别是图形的周长和面积）

图像特征示例：矩特征

矩特征的物理意义

低阶矩描述图像的整体特征

零阶矩反映了目标的面积、一阶矩反映目标的质心位置、二阶矩反映

了目标的主轴、辅轴的长短和主轴的方向角

高阶矩主要描述了图像的细节如目标的扭曲度和峰态的分布等

图像特征示例：颜色特征

探索新的图像特征：暗原色

汤晓鸥（859校友）1990年毕业于中国科大精密机械与精密仪器系并获学士学位; 1991年于罗切斯特大学获得硕士学位；1996年获得麻省理工学院博士学位；汤博士现任香港中文大学信息工程系教授、工程学院副院长。其主页为：http://mmlab.ie.cuhk.edu.hk/

K. He, J. Sun, and X. Tang, " Single Image Haze Removal Using Dark Channel Prior ," CVPR, 2009.

探索新的图像特征？应用相关的特征

虹膜

B超夜视仪

遥感

基于内容的图像检索(CBIR)

CBIR(Content-based image retrieval)

为了克服基于关键字检索的局限

依赖图像本身的特征

图像的低层特征

颜色，纹理，形状

可以自动提取


图像表示特征向量

如64维的直方图

相似度度量向量内积 L1 距离 L2 距离将距离转换维相似度

图像排序和查询图像相似度越高返回排序越靠前


两大困难

维数灾难(dimension disaster)

特征维数太大，无法大量计算

语义鸿沟(semantic gap)

内容特征相似的图像可能完全不相关

低层特征和图像意义没有必然联系


减小语义鸿沟的方法

基于区域的表示

图像分割：如JSeg 算法

图像表示

变长特征向量

每个区域的特征向量单独处理

相似度度量

EMD算法(Earth Mover’s Distance)

相关反馈

用户反馈对检索结果的意见：返回相关||不相关

系统通过反馈信息和学习改进检索算法

小结：图像检索

不同的图像检索方法基于文本的图像检索基于关键字的图像检索基于内容的图像检索（CBIR）

经典特征：几何、矩、颜色特征；直方图……

其他特征：暗原色、应用相关特征……

CBIR的主要困难维数灾难(dimension disaster)

语义鸿沟(semantic gap)

图像检索的挑战海量的图像需要分析

海量的数据、怎样使算法更快

怎样屏蔽网络上的不健康图片色情图片、暴力图片


§5.1 引言

§5.2 信息检索

§5.1.2 文本搜索

§5.1.3 图像搜索

§5.1.4 音频搜索

基于描述信息

基于内容

§5.1.5 视频搜索

§5.3 内容分析




65

音频检索

音频对象

.wma， .mp3

音频对象的描述

周围的文字

检索方法

计算查询对象和音频对象周围文字的相关性

一些著名音频搜索引擎

国外

Yahoo! http://audio.search.yahoo.com/

Altavista http://www.altavista.com/audio/default

Lycos http://multimedia.lycos.com/

FindSound http://www.findsounds.com/

国内

Baidu http://mp3.baidu.com

Yahoo! http://music.yisou.com

http://audio.search.yahoo.com/

http://www.altavista.com/audio/default

http://multimedia.lycos.com/

http://www.findsounds.com/

http://mp3.baidu.com/

http://music.yisou.com/

当前音频搜索引擎的缺点

有限的信息

错误的描述

信息没有结构化

如何改进

提取结构化的信息音乐结构:艺术家.专辑.歌名

搜索结果分类

Music Artist 1

Album 1 Album m

So

ng

1

„„

„„ „„

„„ Music Artist x

So

ng

2

So

ng

n

So

ng

1

So

ng

2

So

ng

n„„

Layer 1

Layer 3

Layer 2

„„

如何改进

提供更多的信息垂直搜索

从不同网页搜集相关信息

获得更多更准确的信息

介绍，码速率，流行程度等信息

支持多种查询 “周杰伦”

“适合晚上听的歌”

“本月最流行歌曲”

音乐内容分析

基于音频内容的搜索

根据音乐内容进行搜索

特征提取分类/检索

一些典型音频图谱

Dialogue

Topic

Speakers

Applause

Cheers

Exciting Scene

Pop Music

Sprightly

Tempo: 100BPM

音频的特征示例：时域特征

time domain

Audio Power (AP)

Audio Wave Form (AWF)

Root-Mean-Square (RMS)

Short Time Energy (STE)

Low Short-Time Energy Ratio

Zero-Crossing Rate (ZCR)

High Zero-Crossing Rate Ratio (HZCRR)

音频的特征示例：频域特征

frequency domain

FFT spectrum

cepstrum

Audio Spectrum Centroid (ASC)

Fundamental Frequency (FuF)

Mel Frequency Cepstral Coefficients (MFCC)

Spectrum Flux (SF)

MFCC for 24 seconds of speech

Mel Frequency Cepstral Coefficients

(MFCC)

MFCC for 24 seconds of speech

基于内容的音频搜索应用领域

音频索引和检索

多媒体创作

音乐自动推荐

搜索应用 PC桌面搜索

移动终端的搜索手机

掌上电脑

小结：音频检索

基于对音频对象的描述周围的文字

结构化的信息如艺术家.专辑.歌名

基于内容的音频检索（特征匹配） time domain

Audio Power (AP)、Audio Wave Form (AWF)、Root-Mean-Square

(RMS)、Short Time Energy (STE)


frequency domain

FFT spectrum、cepstrum、Audio Spectrum Centroid (ASC)、

Fundamental Frequency (FuF)、Mel Frequency Cepstral Coefficients

(MFCC)、Spectrum Flux (SF)


§5.1 引言

§5.2 信息检索

§5.1.2 文本搜索

§5.1.3 图像搜索

§5.1.4 音频搜索

§5.1.5 视频搜索

基于内容的视频检索

基于文本的的视频检索

§5.3 内容分析




78

视频检索

一些著名视频检索引擎

Google， Yahoo， Blinkx， Truveo， AltaVista，

SingingFish， …

五类视频

大型新闻网站 Fox News， CNN， Movielink，

BBC News， NBC， ESPN， etc.

电视的记录

用户上传的视频

一些专业的网站

两种方法

基于内容的视频检索VS基于文本的视频检索


技术上的挑战

查询方法

相似度度量

基于文本的的视频检索特征

当今视频检索引擎的方法

靠关键字查询

基于文字描述信息

大量的用户


基本技术

结构化

索引

介绍

格式

关键字标注

视频自动标注

分类

描述信息

特征提取

视频流

分析抽象


§5.1 引言

§5.2 信息检索

§5.3 内容分析


语音信号处理与识别

基于内容的音乐分析

一般音频信号分析



83

异常声音的检测

公共场合所发生的异常事件一般都伴随有异常声音的产生，如枪声、爆炸声、玻璃破碎声、尖叫声等，异常声音的产生表明异常事件即将发生或已经发生。

异常声音的声谱图

刘鹏，基于声谱图的公共场所异常声音特征提取及识别研究，重庆大学硕士学位论文，2012.04

声谱图是描述声音信号的一种三维感知图，由频率、时间、声压三个维度信息构成。声音信号的不同频率分量在任一给定时刻用声谱图中的不同灰度值来表示，为加强声音信号的特征，对每一点采用声压值来表征。

机器听觉的研究问题

机器听觉分为三大领域：语音信号处理与识别、一般

音频信号分析、基于内容的音乐分析。

在这三个研究领域当中，有关语音识别的研究最为深

入。

音频信号分析包含音频流的自动分类、自动分割、自

动检索等、

从研究对象上看，由于音乐在人类社会中所占有的特

殊地位，它必将成为音频处理领域中继语音之后的又

一个研究热点。

基于内容的音频与音乐分析综述，张一彬等，《计算机学报》，2007年5月

语音信号处理与识别

• 语音识别（Speech Recognition）技术：所要解决的问题是让计算机能够“听懂”人类的语音，将语音中包含的文字信息“提取”出来。该技术在“能听会说”的智能计算机系统中扮演着重要角色，相当于给计算机系统安装上“耳朵”，使其具备“能听”的功能，进而实现信息时代利用“语音”这一最自然、最便捷的手段进行人机通信和交互。

• 语音识别领域按关注的信息内容的不同，一般分为语音识别(Automatic Speech Recognition, ASR)，说话人识别(即声纹识别)(Speaker Recognition or Voiceprint Recognition )，以及语种方言识别(Language and Dialect Recognition)。

语音合成（Speech Synthesis）技术：又称文语转换（Text to Speech）技术，它涉及声学、语言学、数字信号处理、计算机科学等多个学科技术。语音合成技术解决的主要问题是将文字信息转化为声音信息，即让机器像人一样开口说话。

http://www.iflytek.com

基于内容的音频数据自动分类

针对音乐类数据的自动分类与识别

针对不同音乐类型的自动分类

基于内容的乐器(音色)自动分类与识别

歌手自动识别

包含音乐类数据的一般音频分类

语音与音乐类数据的区分

其他多类分类问题，如语音和非语音

不包含音乐类数据的一般音频分类

如区分五类噪声源：小汽车、卡车、摩托车、飞机和火车


基于内容的音频流分割


将一段音频流数据按其内容自动地分为若干片段，使得每个片段在内容类别上具有一致性。

• 说话人分割• 语音／音乐数据流分割

• 其它多类音频流分割问题

基于内容的音频数据自动检索

针对音乐类数据的自动检索

基于原曲局部相似性匹配检索

歌曲“哼唱”检索

基于“情感”的音乐检索

针对一般音频对象的自动检索


基于内容的音乐分析

音乐作品结构分析

音乐是一种十分复杂的、有层次的声音信号，一些学者致力于通过计算机来分析音乐本身的这种层次结构。

音乐自动摘要

指对一段音乐信号生成一个高度简约又能反映出该音乐特点的摘要信息，如何对音乐数据进行摘要描述是一个重要的问题。

音乐建模

乐谱自动识别与分析

自动伴奏

音乐情感分析


音频分析的技术方法

相关的学科

数字信号处理、机器学习、模式识别、数据挖掘……

用于音频内容分析的常见特征 time domain

Audio Power (AP)、Audio Wave Form (AWF)、Root-Mean-

Square (RMS)、Short Time Energy (STE)


frequency domain FFT spectrum、cepstrum、Audio Spectrum Centroid (ASC)、

Fundamental Frequency (FuF)、Mel Frequency Cepstral

Coefficients (MFCC)、Spectrum Flux (SF)

小结：音频信号处理音频内容分析

人工耳蜗模型

Richard F. Lyon

Machine Hearing: An Emerging Field

IEEE Signal Processing magzine, Sep. 2010

Hearing machines should be

able to organize what they

hear; learn names for

recognizable objects, actions,

events, places, musical

styles, instruments, and

speakers; and retrieve

sounds by reference to those

names.

机器听觉（Machine Hearing）


§5.1 引言

§5.2 信息检索

§5.3 内容分析



图像分割

目标识别

场景描述与理解


94

计算机视觉(Computer Vision, CV)

计算机视觉就是用各种成象系统代替视觉器官作为输

入敏感手段，由计算机来代替大脑完成处理和解释。

研究目标就是使计算机能象人那样通过视觉观察和理

解世界，具有自主适应环境的能力。

图像处理技术把输入图像转换成具有所希望特性的另一

幅图像。

模式识别技术根据从图象抽取的统计特性或结构信息，

把图像分成予定的类别。

图象理解程序不仅描述图象本身，而且描述和解释图象

所代表的景物，以便对图像代表的内容作出决定。

图像分析/图像理解

图像分析一般利用数学模型并结合图像处理的技术来分析底层特征和上层结构，从而提取具有一定智能性的信息。

图像分析用模式识别和人工智能方法对物景进行分析、描述、分类和解释的技术，又称景物分析或图像理解。

图像分析研究的领域一般包括：

基于内容的图像检索（CBIR-Content Based Image Retrieval）

人脸识别（face recognition）

表情识别（emotion recognition）

光学字符识别（OCR-Optical Character Recognition）

手写体识别（handwriting recognition）

医学图像分析（biomedical image analysis）

视频对象提取（video object extraction）

图像分割(image segmentation)

将图像分成互不重叠,具有各自特征的区域。这里的特性可以是灰度、颜色或纹理等。

脑部图像和区域生长法分割的结果

边缘检测结果 (a)LoG算子 (b)Canny算子

机场目标识别

人脸检测(Face Detection)

人脸检测是指对于任意一副给定的图像，采用一定的策略对其进行搜索以确定其中是否含有人脸，如果是则返回一脸的位置、大小和姿态。

没有进行人脸识别、跟踪前人脸识别后放大效果

中星微电子Vimicro 301 Neptune超级人脸追踪技术效果展示图人脸检测已经具有较

为可靠的识别特性，比如利用OpenCv的人脸检测库，对清晰正面脸的识别精确度可达到90%-95%。

人脸识别(Face recognition)

Cloud face

http://ssbkyh.com/works/cloud_face/

Cat or Human (detail), 2013.

http://ssbkyh.com/works/cat_human/

表情识别（emotion recognition）

表情识别软件针对脸部的12个重点区域，例如眼角和嘴角，创建了3-D脸部地图。根据一种跟踪算法，计算机可以分解并识别出人的表情。

CASIA Fingerprint Image Database

http://biometrics.idealtest.org/

National Laboratory of Pattern Recognition (NLPR) | Institute of Automation, Chinese Academy of

Sciences(CASIA)

指纹纹路并不连续、平滑，而是常出现中断、分叉或转折。这些断点、分叉点和转折点就称为“特征点”，就是这些特征点提供了指纹唯一性的确认信息。

CASIA Iris Image Database



Sciences(CASIA)

虹膜诊断学

CASIA Palmprint Image Database



Sciences(CASIA)

Image Forensic

《每日新闻》的Paul Hansen获得第70届（ 2013年）全球年度图片奖的年度新闻报纸摄影师。这张照片也获得第56届“荷赛”的“世界新闻摄影年度照片”奖。

2岁的Suhaib Hijazi和他即将满4岁的哥哥Muhammad丧生于以色列火箭弹的袭击下。他们的父亲Fouad也同时遇害。他们的母亲正躺在Shifa医院的重症监护室中。

Source:

http://www.hackerfactor.com/blog/index.php?/archives/549

-Unbelievable.html&utm_source=feedly

Sunday, May 12. 2013

Error level analysis

Error level analysis shows differing

error levels throughout this image,

strongly suggesting some form of

digital manipulation. Areas to note

are the lips and shirt, as well as the

eyes. All are at significantly

different error levels than their

surroundings. Presumably, colours

have been altered and areas

brightened.

Source http://www.errorlevelanalysis.com/

小结：图像处理图像内容分析

计算机视觉（Computational Vision）就是用各种成象系统代替视觉器官作为输入敏感手段，由计算机来代替大脑完成处理和解释。计算机视觉的最终研究目标就是使计算机能象人那样通过视觉观察和理解世界，具有自主适应环境的能力。有不少学科的研究目标与计算机视觉相近或与此有关。这些学科中包括图像处理、模式识别或图像识别、景物分析、图象理解等。


§5.1 引言

§5.2 信息检索

§5.3 内容分析




目标检测

目标跟踪

目标行为识别

107

Video content analysis

Function Description

Dynamic

masking

Blocking a part of the video signal based on the signal itself, for example because of

privacy concerns.

Egomotion

estimation

Egomotion estimation is used to determine the location of a camera by analyzing its

output signal.

Motion

detection

Motion detection is used to determine the presence of relevant motion in the

observed scene.

Object

detection

Object detection is used to determine the presence of a type of object or entity, for

example a person or car. Other examples include fire and smoke detection.

RecognitionFace recognition and Automatic Number Plate Recognition are used to recognize,

and therefore possibly identify persons or cars.

Style

detection

Style detection is used in settings where the video signal has been produced, for

example for television broadcast. Style detection detects the style of the production

process.

Tamper

detection

Tamper detection is used to determine whether the camera or output signal is

tampered with.

Video trackingVideo tracking is used to determine the location of persons or objects in the video

signal, possibly with regard to an external reference grid.

http://en.wikipedia.org/wiki/Video_content_analysis

目标检测应用：区域入侵检测

在监控、库房、铁路等安全监控的禁区，自

动检测进入警戒区内的运动目标：人、汽车

等

Source: http://www.bravevideo.com

目标检测应用：拌线检测

在警戒区内，当有人或者车辆穿越警戒线，

自动触发入侵检测报警


目标检测应用：物品遗留检测

在博物馆、军事安全基地、库房、铁路等无

人看管的重要安防区域，自动检测指定的区

域是否出现遗留物体


目标检测应用：物品丢失或移走检测

自动检测防区内重要物品被移走，实时报警


多目标检测应用：车流密度检测

自动检测监控场景内或指定检测区域内的车

流密度。


多目标检测应用：人数统计

在通道的出入口以及重要区域（包括商场、超市、

公园、机场、军事基地等）实现出入口的双向人数

统计，以及重点区域内的人数统计。

双向人数统计区域内人数统计


人体检测技术

基于视频的方法

指的是基于图像序列或视频中的运动信息实现人体的检测，例如背景剪除，混合高斯模型,帧差等。

具有较快的运算速度，可在视频监控等要求实时检测的领域中进行应用。

基于图像的方法

通过提取图像中的人体特征，设计训练相应的分类器实现人体检测。常见的人体特征包括HOG特征， Edgdet特征， LBP特征等。

该类方法由于需耍在图像中进行全局搜索，因此通常具有较高的计算复杂度。

北京交通大学博士论文，郭萍，《基于视频的人体行为分析》，2012年6月

移动目标跟踪

自动检测预设位下监控范围内的运动目标，如触发报警，则进行目标跟踪，根据目标的运动行为对摄像机的云台和变焦镜头进行视觉导向的自主驱动，使跟踪目标持续以放大特写画面出现在镜头中央。


Picture Source: http://www.imagetekinfo.com/technical/technical3.html

技术先驱：三星Galaxy S4利用眼球识别

2013年4月18日，三星Galaxy S4正式在中国发布……通过几

个话剧展示了几项人性化功能……旨在通过这些功能让用户

的人机交互体验更加方便……其中的智能滚动功能更是被三

星申请了技术专利，一时间关于眼球识别的话题在市面上传

播开来。

目标行为识别应用：逆向行为检测


自动检测运动目标的运动方向，用户可以指定运动目标的允许运动方向，发现有反方向运动行为，立即报警。

目标行为识别应用：打架、斗殴检测


通过检测人体运动速度特征、运动轨迹特征及肢体变化剧烈程度等重要特征，自动区分人群的正常行为与疑似打架、斗殴的暴力行为。

目标行为识别应用：逗留时间检测

Source: http://www.accvisio.com/


§5.1 引言



§5.2 信息检索

§5.1.2 文本搜索

§5.1.3 图像搜索

§5.1.4 音频搜索

§5.1.5 视频搜索

§5.3 内容分析




121

小结：多媒体信息分析与处理

多媒体（图像、音频、视频）检索

基于文本、关键字基于内容

搜索引擎体系结构：Crawler/Index/User interface

链接分析算法：HITS/PageRank

多媒体（图像、音频、视频）内容分析

音频内容分析：语音识别、音乐分析、音频分析

图像内容分析：图像分割、目标识别、场景理解

视频内容分析：目标检测、目标跟踪、行为识别

谢谢大家

123

多媒体技术 - home.ustc.edu.cnhome.ustc.edu.cn/~wynd/mmt/pdf/mmt_chap5_2013_pub.pdf ·...

Documents