多媒体技术 - home.ustc.edu.cnhome.ustc.edu.cn/~wynd/mmt/pdf/mmt_chap5_2013_pub.pdf ·...
TRANSCRIPT
授课内容
第一部分 多媒体的计算 第一章多媒体计算机系统 第二章 媒体处理技术 第三章 多媒体数据压缩
第二部分 多媒体的存储 第四章 多媒体数据的数字存储
第三部分 多媒体信息的分析与处理
第五章多媒体信息分析与处理
第四部分 多媒体网络应用 第六章 实时多媒体通信
2
第五章 多媒体信息分析与处理
§5.1 引言
§5.1.1 从Apple的siri谈起
§5.1.2 信息检索技术概述
§5.2 信息检索
§5.1.2 文本搜索
§5.1.3 图像搜索
§5.1.4 音频搜索
§5.1.5 视频搜索
§5.3 内容分析
§5.3.1 音频内容分析
§5.3.1 图像内容分析
§5.3.1 视频内容分析
3
从Apple的siri谈起
Siri是苹果公司在其产品iphone 4S上应用的一项语音控制功能。利用Siri用户可以通过手机读短信、介绍餐厅、询问天气、语音设置闹钟等。Siri可以支持自然语言输入,并且可以调用系统自带的天
气预报、日程安排、搜索资料等应用,还能够不断学习新的声音和语调,提供对话式的应答。
Siri的背景
Siri成立于2007年,2010年被苹果以2亿美金收购,最初以文字聊天服务为主,后与语音识别厂商Nuance合作,Siri实现了语音识别功能。
Siri 技术来源于美国国防部高级研究规划局所公布的 CALO 计划:一
个让军方简化处理一些繁复庶务,并具学习、组织以及认知能力的数字助理,其所衍生出来的民用版软件 Siri 虚拟个人助理。
Siri的人机交互技术
在前端方面,即面向用户,和用户交互(User
Interface,UI)的技术,主要是语音识别以及语
音合成技术。语音识别技术是把用户的口语转化
成文字,其中需要强大的语音知识库,因此需要
用到所谓的“云计算”技术。而语音合成则是把
返回的文字结果转化成语音输出,这个技术理论
上本地就能完成,但不知道Siri是否如此,当然
,在云端完成也并无不可,在当前无线带宽下,
那点语音流量根本不算什么。
语音及语言信息处理国家工程实验室
2011年9月27日,由国家发改委批复成立的“语音及语言信息处理国家工
程实验室”揭牌仪式在中国科学技术大学西区活动中心大礼堂隆重举行。
工程实验室将依托中国科技大学建设语音合成研究室、语音识别研究室、
自然语言处理研究室、智能人机语音交互研究室等11个核心技术研究室,
并依托科大讯飞建设语音及语言技术研究及工程化应用的技术研发平台、
设计开发平台、测试验证平台和技术应用重大示范平台,进一步整合源头
核心技术研究资源并通过工程化平台形成产业界急需的先进科技成果,不
断提升智能语音技术与产业的核心竞争力。
Siri的后台技术
后台技术的目的就是处理用户的请求,并返回最匹配的结果,这些请求类型很多,千奇百怪,要处理好并不简单。基本的结构猜测可能是分析用户的输入(已经通过语音转化),根据输入类型,分别采用合适的技术(合适的技术后台)进行处理。这些合适的后台技术包括,①以Google 为代表的网页搜索技术;②以Wolfram Alpha 为代表的知识搜索技术(或者知识计算技术);③以Wikipedia 为代表的知识库(和Wolfram Alpha 不同的是,这些知识来自人类的手工
编辑)技术(包括其他百科,如电影百科等);④以Yelp 为代表的问答以及推荐技术。
Computational Knowledge Engine
Wolfram Alpha是由Wolfram Research公司推出
的一款在线自动问答系统。其特色是可以直接向
用户返回答案,而不是像其它搜索引擎一样提供
一系列可能含有用户所需答案的相关网页。
Wolfram Research公司的总裁斯蒂芬·沃尔夫勒姆
于2009年3月宣布了此项计划。该产品于2009年5
月15日正式发布。另外,Wolfram Alpha还在美
国Popular Science杂志的投票评选中获得2009年
度最伟大的科技创新产品的荣誉。
www.wolframalpha.com
用 Wolfram Alpha 进行查询的实例
mortgage 6%, 25 year, $140000 显示了按揭贷款应付利息随着时间的推移所发生的变化。
life expectancy france 25 year old male 预计一位法国25岁成年男性的寿命。
boiling point of water at 6 atm 给出在特定气压下水的沸点。
"What is the forty-eighth smallest country by GDP per capita?" (按人均GDP计算,第四
十八个最小的国家是哪个?)答案是:圣多美和普林西比,每年 1110 美元。
如果输入“China GDP”,出现的将不是一大堆网页,而是直观的数据和图表。包括:中
国GDP最新情况,从1970年至今的中国GDP增长情况(图表形式)、中国通货膨胀率、失
业人口率。
如果输入“How many people in China”,你可以看到目前中国的总人口数、人口密度、平
均每年人口增长率、预期寿命和平均年龄等数据。
如果输入“uncle's uncle's brother's son”,你将获得一份类似家谱的东西,当中包括血缘
关系的具体数据。而如果用户将同样的指令输入Google,获得的只是一些网页的清单。
搜狗搜索发布全新的知识库搜索引擎――“知立方”
搜狗于2012年11月23日在其官方微博中宣称:为了让
用户获取信息更简单,搜狗搜索发布全新的知识库搜索引擎――“知立方”。这是国内搜索引擎行业中首家知识库搜索产品。
比如搜索“张学友的电影”,搜狗搜索会在结果上方显示张学友的所有参演过的影片,右侧则展示张学友的人物关系、电视剧、专辑等相关信息,帮助用户更加立体和全面的了解张学友。
再比如搜索“范冰冰的身高”,一般的搜索引擎会给出很多包含“范冰冰身高”的页面,用户需要逐一点击寻找答案。搜狗知立方可以直接给出精准答案。
Wikipedia
维基百科(Wikipedia,是维基媒体基金会的商标)是一个自由、免费、内容开放的百科全书协作计划,参与者来自世界各地。
维基百科自2001年1月15日正式成立,截至2011年11月,已经有超过3172万的注册用户以及为数众多的未注册用户贡献了282种语言超过2024万篇的条目,其编辑次数已经超过12亿3192万次。
维基百科的中文版本中文维基百科正式开始于2002年10月24日,包括大陆简体,港澳繁体等。截至2011年11月16日已经有超过38.5万
篇中文条目。除了中文维基百科以外还设有其他独立运作的中文方言版本,包括粤语维基百科、闽南语维基百科、文言文维基百科、吴语维基百科、闽东语维基百科及客家语维基百科等。
小结:siri的背后
人机交互:语音识别技术
检索有关
①以Google 为代表的网页搜索技术;
②以 Wolfram Alpha 为代表的知识搜索技术;
③以Wikipedia 为代表的知识库;
④以Yelp 为代表的问答以及推荐技术。
第五章 多媒体信息分析与处理
§5.1 引言
§5.1.1 从Apple的siri谈起
§5.1.2 信息检索技术概述
§5.2 信息检索
§5.1.2 文本搜索
§5.1.3 图像搜索
§5.1.4 音频搜索
§5.1.5 视频搜索
§5.3 内容分析
§5.3.1 音频内容分析
§5.3.1 图像内容分析
§5.3.1 视频内容分析
18
传统检索主要是基于文字的检索,然而随着网络与多媒体技术的飞速发展,对于多媒体信息(图像,音、视频)的检索正逐步成为研究的热点。
History of Search Engine
1990-1992
FTP search: Archie、Gopher、Veronica
1993
WWW & WWWW (World-Wide Web Wanderer)
1994
Yahoo!
1995-1997 【春秋战国】 Excite, AltaVista, ...
1998- 【一超多强】 Google, Baidu, Sogou, MSN, Compass
Who’s the next?
19
检索引擎发展趋势
第二代检索引擎
用户在网站上所花费时间来确定网站的重要性
精选网站检索引擎
人工挑选高质量的网站并按类别排列
超大型检索引擎
专业检索引擎
针对专门的需求进行检索的引擎
检索引擎的检索引擎
多媒体和图像检索引擎
百度相册(http://xiangce.baidu.com/)
具有“人脸识别”功能。2012年11月12日,这一功能正式上线。它不仅让用户更加便捷地浏览和分享固定对象的图片,更让“图片社交”成为一种全新的社交方式。
检索引擎的检索引擎
检索引擎的检索引擎
http://www.searchenginecolossus.com/ 收集世界各国
检索引擎目录,按国家字母顺序排列
http://www.searchpower.com/ 世界最大的检索引擎
目录,收录2325个检索引擎,分类排列
http://www.searchengineguide.com/ 检索引擎指南,
收录2449个检索引擎,分类排列
中文检索的发展
1996年8月成立的搜狐1998年2月推出分类目录搜索引擎。
1997年6月创立的网易,全中文搜索引擎目录
1997年10月29日,北大天网,强大的ftp搜索功能。
1998年1月,台湾中正大学OpenFind中文搜索引擎 1999年2月2日,新浪网“新浪搜索”测试版 1999年9月,雅虎中国网站正式开通 1999年底成立于美国硅谷的百度推出新一代中文搜索引擎。 2000年9月12日,Google也开始启用中文搜索。
2004年6月雅虎推出全新“一搜”
2004年8月3日搜狐公司推出“搜狗”互动式中文搜索引擎。
2005年6月30日,新浪搜索引擎推出“爱问”专门搜索平台
小结:信息检索技术概述
Information OverheadInformation Retrieval
发展历史(1990-)
FTP search、Web Search……
检索技术分类
传统检索(文本检索)、图像检索、音乐检索和视频检索
检索引擎
通用Web检索、专业检索引擎、检索引擎的检索引擎、多
媒体和图像检索引擎
第五章 多媒体信息分析与处理
§5.1 引言
§5.2 信息检索
§5.1.2 文本搜索
§5.1.3 图像搜索
§5.1.4 音频搜索
§5.1.5 视频搜索
§5.3 内容分析
§5.3.1 音频内容分析
§5.3.1 图像内容分析
§5.3.1 视频内容分析
30
Conceptual Components of Search Engine
Crawler
Challenges
depth vs. wideness
granularity of real-time vs. effectiveness
Index
Challenges
huge amount of data
multiple data types and structures
Ranking
criteria
algorithm
User interface
Challenges
human experiences vs. machine implementation
32
信息检索的关键问题:为检索结果排序
对于一个关键字,当今的搜索引擎会返回数百
万个结果
用户显然不可能浏览所有的结果,相关研究表
明,一般不会超过前三页
一个好的排序算法相当重要
根据相关性排序
根据重要性排序
传统信息检索的局限
排序的重要性
当输入harvard关键字时, harvard的主页不一定
被排在最前面,因为有很多网页使用harvard的频
率远远高于harvard的主页.
相同相关程度的网页也太多.
网页不能自我描述
如 “search engine” 这个短语往往不会出现在搜索
引擎的网页上
著名的链接分析算法
HITS
描述了权威网页和中心网页之间的一种依赖关系:一个好
的中心网页应该指向很多好的权威性网页,而一个好的权
威性网页应该被很多好的中心性网页所指向。
PageRank
利用网络自身的超链接结构给所有的网页确定一个重要性
的等级数,当从网页A链接到网页B时,就认为“网页A投
了网页B一票”,增加了网页B的重要性。最后根据网页的
得票数评定其重要性,以此来帮助实现排序算法的优化。
HITS - Kleinberg’s Algorithm
HITS – Hypertext Induced Topic Selection
两个主要参数
a(v) - the authority of v
h(v) - the hubness of v
authority主要描述有多少重要的网页指向它
hubness主要描述它指向多少重要的网页
PageRank
Page et al (1998)提出 网页的重要性取决于
指向它的链接Sergey Brin Larry Page
Page A = 0.15
Page B = 0.2775
Page C = 0.15
Page A = 1
Page B = 1
Page C = 1
Page A = 1.4592
Page B = 0.7702
Page C = 0.7702
Page A = 1.425
Page B = 1
Page C = 0.575
第五章 多媒体信息分析与处理
§5.1 引言
§5.2 信息检索
§5.1.2 文本搜索
§5.1.3 图像搜索
基于文本的图像检索
基于关键字的图像检索
基于内容的图像检索
§5.1.4 音频搜索
§5.1.5 视频搜索
§5.3 内容分析
§5.3.1 音频内容分析
§5.3.1 图像内容分析
§5.3.1 视频内容分析
39
什么是图像搜索引擎
基于网络的图像搜索引擎
从Internet的网页上搜集图片的服务
一些著名的图像搜索引擎
Google, Yahoo!, MSN, Baidu, …
一些自己不索引图像,将搜索关键字送到别
的搜索引擎搜索,然后将返回结果显示的网
站
基于关键字的图像检索:
DICOM 图象文件 CT图象:病人的每一幅断层图象生成相应的一个DICOM 图象文件
RT结构集:靶区、皮肤、敏感器官、中心位置和剂量参考点等
RT计划:治疗过程的几何和剂量数据,包括外照射治疗、近距离治疗计划、分形
、耐受性表、体位关系、控制点概念等
RT剂量:放疗剂量分布数据如相对剂量、绝对剂量、单次剂量、分割次数、射野
权重等
RT图象:从锥形成像设备如x射线模拟定位机和射野影像设备所得到的图像
图像特征示例:几何特征
图像的投影
图像的几何特征 面积、周长、位置、方向
密集度:C=A/P2(P和A分别是图形的周长和面积)
体态比:区域的最小外接矩形的长与宽之比
圆形度:e=4πA/P2(P和A分别是图形的周长和面积)
图像特征示例:矩特征
矩特征的物理意义
低阶矩描述图像的整体特征
零阶矩反映了目标的面积、一阶矩反映目标的质心位置、二阶矩反映
了目标的主轴、辅轴的长短和主轴的方向角
高阶矩主要描述了图像的细节如目标的扭曲度和峰态的分布等
探索新的图像特征:暗原色
汤晓鸥(859校友)1990年毕业于中国科大精密机械与精密仪器系并获学士学位; 1991年于罗切斯特大学获得硕士学位;1996年获得麻省理工学院博士学位;汤博士现任香港中文大学信息工程系教授、工程学院副院长。其主页为:http://mmlab.ie.cuhk.edu.hk/
K. He, J. Sun, and X. Tang, " Single Image Haze Removal Using Dark Channel Prior ," CVPR, 2009.
基于内容的图像检索(CBIR)
CBIR(Content-based image retrieval)
为了克服基于关键字检索的局限
依赖图像本身的特征
图像的低层特征
颜色,纹理,形状
可以自动提取
基于内容的图像检索
两大困难
维数灾难(dimension disaster)
特征维数太大,无法大量计算
语义鸿沟(semantic gap)
内容特征相似的图像可能完全不相关
低层特征和图像意义没有必然联系
基于内容的图像检索
减小语义鸿沟的方法
基于区域的表示
图像分割:如JSeg 算法
图像表示
变长特征向量
每个区域的特征向量单独处理
相似度度量
EMD算法(Earth Mover’s Distance)
相关反馈
用户反馈对检索结果的意见:返回相关||不相关
系统通过反馈信息和学习改进检索算法
小结:图像检索
不同的图像检索方法 基于文本的图像检索 基于关键字的图像检索 基于内容的图像检索(CBIR)
经典特征:几何、矩、颜色特征;直方图……
其他特征:暗原色、应用相关特征……
CBIR的主要困难 维数灾难(dimension disaster)
语义鸿沟(semantic gap)
图像检索的挑战 海量的图像需要分析
海量的数据、怎样使算法更快
怎样屏蔽网络上的不健康图片 色情图片、暴力图片
第五章 多媒体信息分析与处理
§5.1 引言
§5.2 信息检索
§5.1.2 文本搜索
§5.1.3 图像搜索
§5.1.4 音频搜索
基于描述信息
基于内容
§5.1.5 视频搜索
§5.3 内容分析
§5.3.1 音频内容分析
§5.3.1 图像内容分析
§5.3.1 视频内容分析
65
一些著名音频搜索引擎
国外
Yahoo! http://audio.search.yahoo.com/
Altavista http://www.altavista.com/audio/default
Lycos http://multimedia.lycos.com/
FindSound http://www.findsounds.com/
国内
Baidu http://mp3.baidu.com
Yahoo! http://music.yisou.com
如何改进
提取结构化的信息 音乐结构:艺术家.专辑.歌名
搜索结果分类
Music Artist 1
Album 1 Album m
So
ng
1
„„
„„ „„
„„ Music Artist x
So
ng
2
So
ng
n
So
ng
1
So
ng
2
So
ng
n„„
Layer 1
Layer 3
Layer 2
„„
基于音频内容的搜索
根据音乐内容进行搜索
特征提取分类/检索
一些典型音频图谱
Dialogue
Topic
Speakers
Applause
Cheers
Exciting Scene
Pop Music
Sprightly
Tempo: 100BPM
音频的特征示例:时域特征
time domain
Audio Power (AP)
Audio Wave Form (AWF)
Root-Mean-Square (RMS)
Short Time Energy (STE)
Low Short-Time Energy Ratio
Zero-Crossing Rate (ZCR)
High Zero-Crossing Rate Ratio (HZCRR)
音频的特征示例:频域特征
frequency domain
FFT spectrum
cepstrum
Audio Spectrum Centroid (ASC)
Fundamental Frequency (FuF)
Mel Frequency Cepstral Coefficients (MFCC)
Spectrum Flux (SF)
MFCC for 24 seconds of speech
小结:音频检索
基于对音频对象的描述 周围的文字
结构化的信息如艺术家.专辑.歌名
基于内容的音频检索(特征匹配) time domain
Audio Power (AP)、Audio Wave Form (AWF)、Root-Mean-Square
(RMS)、Short Time Energy (STE)
Zero-Crossing Rate (ZCR)
frequency domain
FFT spectrum、cepstrum、Audio Spectrum Centroid (ASC)、
Fundamental Frequency (FuF)、Mel Frequency Cepstral Coefficients
(MFCC)、Spectrum Flux (SF)
第五章 多媒体信息分析与处理
§5.1 引言
§5.2 信息检索
§5.1.2 文本搜索
§5.1.3 图像搜索
§5.1.4 音频搜索
§5.1.5 视频搜索
基于内容的视频检索
基于文本的的视频检索
§5.3 内容分析
§5.3.1 音频内容分析
§5.3.1 图像内容分析
§5.3.1 视频内容分析
78
视频检索
一些著名视频检索引擎
Google, Yahoo, Blinkx, Truveo, AltaVista,
SingingFish, …
五类视频
大型新闻网站 Fox News, CNN, Movielink,
BBC News, NBC, ESPN, etc.
电视的记录
用户上传的视频
一些专业的网站
两种方法
基于内容的视频检索VS基于文本的视频检索
基于内容的视频检索
技术上的挑战
查询方法
相似度度量
基于文本的的视频检索特征
当今视频检索引擎的方法
靠关键字查询
基于文字描述信息
大量的用户
第五章 多媒体信息分析与处理
§5.1 引言
§5.2 信息检索
§5.3 内容分析
§5.3.1 音频内容分析
语音信号处理与识别
基于内容的音乐分析
一般音频信号分析
§5.3.1 图像内容分析
§5.3.1 视频内容分析
83
异常声音的声谱图
刘鹏,基于声谱图的公共场所异常声音特征提取及识别研究,重庆大学硕士学位论文,2012.04
声谱图是描述声音信号的一种三维感知图,由频率、时间、声压三个维度信息构成。声音信号的不同频率分量在任一给定时刻用声谱图中的不同灰度值来表示,为加强声音信号的特征,对每一点采用声压值来表征。
机器听觉的研究问题
机器听觉分为三大领域:语音信号处理与识别、一般
音频信号分析、基于内容的音乐分析。
在这三个研究领域当中,有关语音识别的研究最为深
入。
音频信号分析包含音频流的自动分类、自动分割、自
动检索等、
从研究对象上看,由于音乐在人类社会中所占有的特
殊地位,它必将成为音频处理领域中继语音之后的又
一个研究热点。
基于内容的音频与音乐分析综述,张一彬等,《计算机学报》,2007年5月
语音信号处理与识别
• 语音识别(Speech Recognition)技术:所要解决的问题是让计算机能够“听懂”人类的语音,将语音中包含的文字信息“提取”出来。该技术在“能听会说”的智能计算机系统中扮演着重要角色,相当于给计算机系统安装上“耳朵”,使其具备“能听”的功能,进而实现信息时代利用“语音”这一最自然、最便捷的手段进行人机通信和交互。
• 语音识别领域按关注的信息内容的不同,一般分为语音识别(Automatic Speech Recognition, ASR),说话人识别(即声纹识别)(Speaker Recognition or Voiceprint Recognition ),以及语种方言识别(Language and Dialect Recognition)。
语音合成(Speech Synthesis)技术:又称文语转换(Text to Speech)技术,它涉及声学、语言学、数字信号处理、计算机科学等多个学科技术。语音合成技术解决的主要问题是将文字信息转化为声音信息,即让机器像人一样开口说话。
http://www.iflytek.com
基于内容的音频数据自动分类
针对音乐类数据的自动分类与识别
针对不同音乐类型的自动分类
基于内容的乐器(音色)自动分类与识别
歌手自动识别
包含音乐类数据的一般音频分类
语音与音乐类数据的区分
其他多类分类问题,如语音和非语音
不包含音乐类数据的一般音频分类
如区分五类噪声源:小汽车、卡车、摩托车、飞机和火车
基于内容的音频与音乐分析综述,张一彬等,《计算机学报》,2007年5月
基于内容的音频流分割
基于内容的音频与音乐分析综述,张一彬等,《计算机学报》,2007年5月
将一段音频流数据按其内容自动地分为若干片段,使得每个片段在内容类别上具有一致性。
• 说话人分割• 语音/音乐数据流分割
• 其它多类音频流分割问题
基于内容的音频数据自动检索
针对音乐类数据的自动检索
基于原曲局部相似性匹配检索
歌曲“哼唱”检索
基于“情感”的音乐检索
针对一般音频对象的自动检索
基于内容的音频与音乐分析综述,张一彬等,《计算机学报》,2007年5月
基于内容的音乐分析
音乐作品结构分析
音乐是一种十分复杂的、有层次的声音信号,一些学者致力于通过计算机来分析音乐本身的这种层次结构。
音乐自动摘要
指对一段音乐信号生成一个高度简约又能反映出该音乐特点的摘要信息,如何对音乐数据进行摘要描述是一个重要的问题。
音乐建模
乐谱自动识别与分析
自动伴奏
音乐情感分析
基于内容的音频与音乐分析综述,张一彬等,《计算机学报》,2007年5月
音频分析的技术方法
相关的学科
数字信号处理、机器学习、模式识别、数据挖掘……
用于音频内容分析的常见特征 time domain
Audio Power (AP)、Audio Wave Form (AWF)、Root-Mean-
Square (RMS)、Short Time Energy (STE)
Zero-Crossing Rate (ZCR)
frequency domain FFT spectrum、cepstrum、Audio Spectrum Centroid (ASC)、
Fundamental Frequency (FuF)、Mel Frequency Cepstral
Coefficients (MFCC)、Spectrum Flux (SF)
小结:音频信号处理音频内容分析
人工耳蜗模型
Richard F. Lyon
Machine Hearing: An Emerging Field
IEEE Signal Processing magzine, Sep. 2010
Hearing machines should be
able to organize what they
hear; learn names for
recognizable objects, actions,
events, places, musical
styles, instruments, and
speakers; and retrieve
sounds by reference to those
names.
机器听觉(Machine Hearing)
第五章 多媒体信息分析与处理
§5.1 引言
§5.2 信息检索
§5.3 内容分析
§5.3.1 音频内容分析
§5.3.1 图像内容分析
图像分割
目标识别
场景描述与理解
§5.3.1 视频内容分析
94
计算机视觉(Computer Vision, CV)
计算机视觉就是用各种成象系统代替视觉器官作为输
入敏感手段,由计算机来代替大脑完成处理和解释。
研究目标就是使计算机能象人那样通过视觉观察和理
解世界,具有自主适应环境的能力。
图像处理技术把输入图像转换成具有所希望特性的另一
幅图像。
模式识别技术根据从图象抽取的统计特性或结构信息,
把图像分成予定的类别。
图象理解程序不仅描述图象本身,而且描述和解释图象
所代表的景物,以便对图像代表的内容作出决定。
图像分析/图像理解
图像分析一般利用数学模型并结合图像处理的技术来分析底层特征和上层结构,从而提取具有一定智能性的信息。
图像分析用模式识别和人工智能方法对物景进行分析、描述、分类和解释的技术,又称景物分析或图像理解。
图像分析研究的领域一般包括:
基于内容的图像检索(CBIR-Content Based Image Retrieval)
人脸识别(face recognition)
表情识别(emotion recognition)
光学字符识别(OCR-Optical Character Recognition)
手写体识别(handwriting recognition)
医学图像分析(biomedical image analysis)
视频对象提取(video object extraction)
图像分割(image segmentation)
将图像分成互不重叠,具有各自特征的区域。这里的特性可以是灰度、颜色或纹理等。
脑部图像和区域生长法分割的结果
边缘检测结果 (a)LoG算子 (b)Canny算子
机场目标识别
人脸检测(Face Detection)
人脸检测是指对于任意一副给定的图像,采用一定的策略对其进行搜索以确定其中是否含有人脸,如果是则返回一脸的位置、大小和姿态。
没有进行人脸识别、跟踪前人脸识别后放大效果
中星微电子Vimicro 301 Neptune超级人脸追踪技术效果展示图人脸检测已经具有较
为可靠的识别特性,比如利用OpenCv的人脸检测库,对清晰正面脸的识别精确度可达到90%-95%。
人脸识别(Face recognition)
Cloud face
http://ssbkyh.com/works/cloud_face/
Cat or Human (detail), 2013.
http://ssbkyh.com/works/cat_human/
CASIA Fingerprint Image Database
http://biometrics.idealtest.org/
National Laboratory of Pattern Recognition (NLPR) | Institute of Automation, Chinese Academy of
Sciences(CASIA)
指纹纹路并不连续、平滑,而是常出现中断、分叉或转折。这些断点、分叉点和转折点就称为“特征点”,就是这些特征点提供了指纹唯一性的确认信息。
CASIA Iris Image Database
http://biometrics.idealtest.org/
National Laboratory of Pattern Recognition (NLPR) | Institute of Automation, Chinese Academy of
Sciences(CASIA)
虹膜诊断学
CASIA Palmprint Image Database
http://biometrics.idealtest.org/
National Laboratory of Pattern Recognition (NLPR) | Institute of Automation, Chinese Academy of
Sciences(CASIA)
Image Forensic
《每日新闻》的Paul Hansen获得第70届( 2013年)全球年度图片奖的年度新闻报纸摄影师。这张照片也获得第56届“荷赛”的“世界新闻摄影年度照片”奖。
2岁的Suhaib Hijazi和他即将满4岁的哥哥Muhammad丧生于以色列火箭弹的袭击下。他们的父亲Fouad也同时遇害。他们的母亲正躺在Shifa医院的重症监护室中。
Source:
http://www.hackerfactor.com/blog/index.php?/archives/549
-Unbelievable.html&utm_source=feedly
Sunday, May 12. 2013
Error level analysis
Error level analysis shows differing
error levels throughout this image,
strongly suggesting some form of
digital manipulation. Areas to note
are the lips and shirt, as well as the
eyes. All are at significantly
different error levels than their
surroundings. Presumably, colours
have been altered and areas
brightened.
Source http://www.errorlevelanalysis.com/
小结:图像处理图像内容分析
计算机视觉(Computational Vision)就是用各种成象系统代替视觉器官作为输入敏感手段,由计算机来代替大脑完成处理和解释。计算机视觉的最终研究目标就是使计算机能象人那样通过视觉观察和理解世界,具有自主适应环境的能力。有不少学科的研究目标与计算机视觉相近或与此有关。这些学科中包括图像处理、模式识别或图像识别、景物分析、图象理解等。
第五章 多媒体信息分析与处理
§5.1 引言
§5.2 信息检索
§5.3 内容分析
§5.3.1 音频内容分析
§5.3.1 图像内容分析
§5.3.1 视频内容分析
目标检测
目标跟踪
目标行为识别
107
Video content analysis
Function Description
Dynamic
masking
Blocking a part of the video signal based on the signal itself, for example because of
privacy concerns.
Egomotion
estimation
Egomotion estimation is used to determine the location of a camera by analyzing its
output signal.
Motion
detection
Motion detection is used to determine the presence of relevant motion in the
observed scene.
Object
detection
Object detection is used to determine the presence of a type of object or entity, for
example a person or car. Other examples include fire and smoke detection.
RecognitionFace recognition and Automatic Number Plate Recognition are used to recognize,
and therefore possibly identify persons or cars.
Style
detection
Style detection is used in settings where the video signal has been produced, for
example for television broadcast. Style detection detects the style of the production
process.
Tamper
detection
Tamper detection is used to determine whether the camera or output signal is
tampered with.
Video trackingVideo tracking is used to determine the location of persons or objects in the video
signal, possibly with regard to an external reference grid.
http://en.wikipedia.org/wiki/Video_content_analysis
多目标检测应用:人数统计
在通道的出入口以及重要区域(包括商场、超市、
公园、机场、军事基地等)实现出入口的双向人数
统计,以及重点区域内的人数统计。
双向人数统计 区域内人数统计
Source: http://www.bravevideo.com
人体检测技术
基于视频的方法
指的是基于图像序列或视频中的运动信息实现人体的检测,例如背景剪除,混合高斯模型,帧差等。
具有较快的运算速度,可在视频监控等要求实时检测的领域中进行应用。
基于图像的方法
通过提取图像中的人体特征,设计训练相应的分类器实现人体检测。常见的人体特征包括HOG特征, Edgdet特征, LBP特征等。
该类方法由于需耍在图像中进行全局搜索,因此通常具有较高的计算复杂度。
北京交通大学博士论文,郭萍,《基于视频的人体行为分析》,2012年6月
移动目标跟踪
自动检测预设位下监控范围内的运动目标,如触发报警,则进行目标跟踪,根据目标的运动行为对摄像机的云台和变焦镜头进行视觉导向的自主驱动,使跟踪目标持续以放大特写画面出现在镜头中央。
Source: http://www.bravevideo.com
Picture Source: http://www.imagetekinfo.com/technical/technical3.html
技术先驱:三星Galaxy S4利用眼球识别
2013年4月18日,三星Galaxy S4正式在中国发布……通过几
个话剧展示了几项人性化功能……旨在通过这些功能让用户
的人机交互体验更加方便……其中的智能滚动功能更是被三
星申请了技术专利,一时间关于眼球识别的话题在市面上传
播开来。
目标行为识别应用:打架、斗殴检测
Source: http://www.bravevideo.com
通过检测人体运动速度特征、运动轨迹特征及肢体变化剧烈程度等重要特征,自动区分人群的正常行为与疑似打架、斗殴的暴力行为。
第五章 多媒体信息分析与处理
§5.1 引言
§5.1.1 从Apple的siri谈起
§5.1.2 信息检索技术概述
§5.2 信息检索
§5.1.2 文本搜索
§5.1.3 图像搜索
§5.1.4 音频搜索
§5.1.5 视频搜索
§5.3 内容分析
§5.3.1 音频内容分析
§5.3.1 图像内容分析
§5.3.1 视频内容分析
121
小结:多媒体信息分析与处理
多媒体(图像、音频、视频)检索
基于文本、关键字基于内容
搜索引擎体系结构:Crawler/Index/User interface
链接分析算法:HITS/PageRank
多媒体(图像、音频、视频)内容分析
音频内容分析:语音识别、音乐分析、音频分析
图像内容分析:图像分割、目标识别、场景理解
视频内容分析:目标检测、目标跟踪、行为识别