1000 1832(2007)03-0032-05
TRANSCRIPT
[收稿日期 ] 2006-12-26
[基金项目 ] 上海市科委重大攻关项目(025115008) .
[作者简介 ] 王维廉(1982—) ,男 ,硕士研究生 ;王北星 (1961—) ,女 ,硕士 ,教授 ,主要从事管理信息系统开发 ;黄岚 (1974—) ,女 ,
博士 ,副教授 ,主要从事智能算法及其应用研究 .
[文章编号]1000-1832(2007)03-0032-05
两种基于标识的增强现实注册方法的比较
王维廉1 ,王北星2 ,黄 岚3
(1 .上海大学计算机工程与科学学院 ,上海 200072 ;
2. 长春税务学院经济信息管理系 ,吉林 长春 130117 ;
3. 吉林大学计算机科学与技术学院 ,吉林 长春 130012)
[摘 要] 介绍了两种基于标识的增强现实开发包 ARToolKit 和 ARTag .从标识定位错误发
生率、标识混淆错误发生率和系统运行速度等方面 ,通过试验对两个系统的表现进行了比较 ,
并从算法和原理上阐述了表现差异的原因 ,给出了试验结果 .对基于标识的增强现实系统应用
进行了展望 .
[关键词] 增强现实 ;模式识别 ;三维注册 ;标识
[中图分类号] TP 391 .41 [学科代码] 520·60 [文献标识码] A
0 引言
增强现实技术可以让真实世界与虚拟世界产
生互动 ,其理念在于 :用虚拟世界增强真实世界 .
通过增强现实技术 ,由计算机生成的虚拟场景或
物体可以叠加在由摄像机拍摄的真实世界中 .增
强现实技术已经被人们广泛应用于很多领域 ,特
别是各类演示平台 ,随着会展、培训等行业的迅速
发展 ,增强现实技术的应用价值已经越来越得到
人们广泛的认可 .[1 - 2]
在增强现实技术中 ,三维注册技术 ,即如何得
到准确的虚拟物体与现实世界的坐标关系 ,成为
了研究的热点 .当前流行的基于计算机视觉的三
维注册方法主要有两种 :基于标识的三维注册和
基于自然特征的三维注册 .基于标识的三维注册
系统 ,将特殊标识添加进背景环境 ,利用计算机视
觉方法识别 ,并找到标识与摄像机的位置关系 ,从
而准确地进行三维定位 .相比之下 ,基于标识的三
维注册具有算法简单 ,速度快 ,对环境条件和硬件
条件要求都比较低的特点 ,比较适合相对固定的
演示平台应用 .[3]
1 增强现实三维注册的原理和标识物的
识别
1 .1 三维注册技术
三维注册的目的是得到真实世界和摄像机之
间的位置关系 .摄像机和真实世界分别产生两个
坐标系 ,两个坐标系的转换关系由转换矩阵描述 .
增强现实系统的三维注册问题可以归结为真实世
界坐标系与摄像机坐标系之间的三维变换矩阵求
解 .
下面我们建立一个模型来实现上述变换 ,如
图 1 ,[ x ,y ,z]表示真实空间坐标系(世界空间坐
标系) ,这是整个增强现实系统中的 基础、 重
要的坐标系 ;[ξ,η,ζ]表示虚拟空间坐标系 ,此坐
标系用来对所添加的虚拟空间进行几何描述 ;
[ x′,y′,z′]标识摄像机空间坐标系 ,它是以摄像
头镜头中心点为坐标原点的一个三维空间坐标
系 ,摄像头的光轴作为 Z′轴 ,镜头所对的方向是
Z′轴正方向 ,按右手法则确定 Y′轴 ;[ u ,v]表示
成像平面坐标系 ,就是摄像头 CCD在成像平面上
的二维坐标系 .其原点就是摄像头坐标系中的 Z′
第 39 卷第 3 期 东 北 师 大 学 报 ( 自 然 科 学 版 ) Vol .39 No .3
2007 年 9 月 Journal of Northeast Normal University (Natural Science Edition) September 2007
轴和成像平面的交点 ,而 U ,V 轴和摄像头坐标
系的 X′,Y′轴平行 ,正方向也一致 .
图 1 真实世界和虚拟世界
坐标系转换图
1 .2 标识物的识别
在很多增强现实系统中 ,三维注册采用识别
“自然特征”的方式进行 ,该方法不对真实环境进
行任何处理 ,通过识别环境中的特征区域 ,找到虚
拟物体与真实环境之间的关系 .例如 :上海大学实
现的户外基于自然特征点的增强现实注册方
法[4]
.但很多情况下 ,场景内材质、特征点所能提
供的信息不足以将标定区域提取出来 .这种情况
下 ,往往采用人工标记 .这类标记在占用很少屏幕
象素点的情况下 ,能够大大提高计算机视觉识别
的可靠性和处理速度 .目前 ,基于标识的三维注册
技术 ,已经被广泛运用于各种场合 ,例如 :Kato .H等人制作的魔杯系统
[5],Daniel Wagner 制作的汉
字教学软件[6]
.
基于标识的三维注册技术目前正在不断完善
中 ,加拿 大国 家研 究院 的 Mark Fiala 开发 的
ARTag和日本广岛城市大学和美国华盛顿大学
联合开发的 ARToolkit (之后推出了 ARToolkitPlus)是目前广泛应用于基于标识的三维注册技
术中的两个重要的二次开发包 .被国内外学者广
泛应用于各种场合 ,例如 :Mark Fiala(ARTag 的
发明人)利用 ARTag制作的可自动校正的投影设
备[7]
,华 中科 技大学 的任 波设 计的 基于 AR-ToolKit 的样板房展示系统 .
[3]
本文分别采用此二开发包进行试验 ,就这两
个开发包在不同光照环境、不同外界环境中的表
现进行比较 ,并从算法上分析二者显现出不同表
现的原因 .
2 比较 ARTag 与 ARToolkit
ARTag与 ARToolkit 系统三维注册步骤基
本相同 ,可总结为以下几点 :(1)提取四边形作为
候选匹配区域 ;(2)将每一候选区与模板中的相应
知识进行匹配 ,如产生匹配 ,则系统认定找到标
识 ;(3)计算该区域变形 ,得到摄像机相对已知标
识的位置和姿态 , 终得到变换矩阵 ,实现虚实注
册(如图 2 所示) .本文将就此过程中系统的不同
处理方式和表现进行分析和比较 .
图 2 增强现实系统运行流程图
至于一套标识系统的标准 ,我们可以主要从
以下几个方面来权衡 :(1)标识定位错误发生率 ,
即系统将非标识的背景物体当做可识标识 ,把虚
拟物体贴到了本不该出现的地方 ,或存在标识时 ,
系统却未加以识别 ,没有对背景进行增强 ;(2)标
识混淆错误发生率 ,标识混淆错误即系统将某一
个标识认成另外一种标识 ,产生错误的贴图 ;(3)
系统运行速度 ,本文考虑系统从识别标识到将虚
拟物体添加再到视频所需时间 .
2 .1 标识定位错误发生率
在特征区域提取过程中 ,ARToolkit ,ARTag都使用方形边界进行区域标识 .
ARToolkit 首先将图像进行灰度二值化处
理 ,之后设定一固定阈值分割图像 ,在得出的黑白
图像中搜索连通域轮廓 .
ARTag和 ARToolkit 一样 ,首先将图像二值
化 ,并从中提取四边形 ,与之不同的是之后的部
分 .与 ARToolkit 采用的识别联通域不同 ,ARTag
采用基于边界的算法 .[8]
该方法首先提取目标图
像中的所有直线段 ,并提取出那些可以组成四边
形的线段 ,作为备选目标区域的轮廓(如图 3) .
图 3 基于边界的轮廓提取算法示意图
33第 3 期 王维廉 ,等 :两种基于标识的增强现实注册方法的比较
比较两系统的特征区域提取过程 ,我们发现 ,
ARToolkit 系统因为采用连通域提取算法 ,因此 ,
系统在标识外框不完整的情况下(例如 ,正方形黑
框的一条边被遮住一部分) ,系统将无法成功提取
特征区域 .ARTag 因为采用基于边界的算法 ,即
使黑框的象素不完整 ,一样可以识别出部分受干
扰的标识(见图 4—6) .
此外 ,ARToolkit 系统在该步骤中需要程序
图 4 部分受干扰的 ARTag 标识 图 5 一个角被遮盖的 ARTag 标识
图 6 内容区域受到干扰的 ARTag 标识 图 7 准确识别出所有标识
员自己设定阈值 ,在不同环境光之下 ,为取得 佳
表现 ,阈值的设定不惟一(比如强光之下 ,灰度阈
值应设得更低 ;弱光条件下 ,灰度阈值相应提高) .
因此 ,ARToolkit 系统在环境光改变的情况下适
应能力不强 .有用户自行设计程序 ,通过计算环境
光强弱 ,自动变化该阈值 ,但如果发生环境光照不
统一(同一帧图像中明暗不一致)时 ,该方法同样
无能为力 .ARTag 不同 ,因为采取的是基于边界
的区域提取办法 ,ARTag 系统对环境光照的要求
小了很多 .我们使用 ARToolKit 和 ARTag 开发
包 ,采用相同的标识模板 ,分别编写了两个增强现
实演示系统 ,用摄像头捕捉视频 ,并用 LED 手电
筒对模板中部进行光增强 .结果发现 ,用 ARTag系统编写的程序准确识别了所有标识(如图 7) ;
而采用ARToolkit 的系统只识别出了亮光部分 ,
相对较暗的区域没有识别出来(如图 8) .
图 8 识别出来两个亮光区域的标识
2 .2 标识混淆错误发生率
在识别标识 ,并与模板库进行匹配的过程中 ,
43 东 北 师 大 学 报 (自 然 科 学 版) 第 39 卷
ARToolkit 和ARTag 系统的做法 ,都是将识别出
的特征区域中的标识图像经过二值化处理与模板
库中的已存知识进行匹配 .
此间 ,如何避免标识混淆错误发生 ,是该步骤
的关键任务 .分析该项指标 ,我们考虑标识混淆错
误发生的原因 .在标识设计合理的情况下 ,该错误
之所以会发生 ,很大程度上源于系统自身对标识
的编码、解码 .每个标识都有一串惟一的二进制数
代表 ,称之为标识 ID 号 ,当系统在识别某一标识
时 ,如该二进制 ID 中的几位发生识别错误 ,就有
可能发生标识间的混淆错误 .
由此 ,ARToolkit 和 ARTag 都采用扩大标识
模板库中各标识模板 ID 之间的海明距离来规避
标识混淆错误 .海明距离 ,即两个长度相同的码
字 ,其相对应的位可能不同 ,彼此不同位的个数称
海明距离(例如 ,10100 和 11001 的海明距离为
3) .
但 ARTag 与 ARToolkit 两者之间的编码方
式不同 ,造成了两者间不同的平均海明距离及标
识混淆错误发生率 .ARTag 和 ARToolkit 都采用
三十六位二进制数确定惟一标识 ,ARTag 的头十
位和 ARToolkit 的头九位都是标识的 ID 号 .AR-Toolkit 将 该 ID 号 重 复 四 次 后 与 一 固 定 数
(011011011100001001101001110000100111)进行
异或操作 .而 ARTag 采用了十位 ID 号与错误校
验码(CRC 校验)结合的方式加大各标识 ID号间
海明距离 .我们知道 ,异或操作并不增大海明距
离 ,而 ARTag的编码方式从增加海明距离的角度
讲对ARToolkit 做出了改进 ,所以理应获得更低
的标识混淆错误发生率 .
2 .3 系统运行速度
多数增强现实系统比较关注系统的运行速
度 ,运行速度越快 ,处理时间越接近同步 ,增强现
实系统给用户带来的浸入感便越强 .
增强现实系统的运行速度主要由标识识别过
程影响 .ARToolKit 和ARTag 都选择了使用黑色
边框(ARTag 也有白色边框的标识)来将标识提
取出来 ,从而加大了区域提取过程的速度 .但是 ,
因为两种系统采用的区域提取算法不同 ,各自的
运行速度也出现了不同 .ARToolkit 采取了计算
二值图像联通域的方法提取四边形区域 ,则系统
需遍历图像中所有象素一次 ,再根据设定的阈值
提取四边形 ;而 ARTag 采用基于边界的算法 ,在
提取四边形时 ,需要多次对比各个边界的顶点 ,即
ARTag需要多次遍历图像中的象素点 .
另外 ,ARTag 采取图像编码技术生成标识 ,
系统自带 2002 个标识的标识模板库 ,在处理增强
现实应用时使用模板库中的多个模板 ,对系统处
理模板识别的时间影响很小 .所以 ,对 ARTag 系
统处理速度影响 大的因素是当前可见的标识数
目 ,可见标识越多 ,系统处理时间越长 .ARToolkit系统 ,由程序员自定义模板 ,将系统模板和标识关
联起来 ,所以 ,对 ARToolkit 系统处理速度影响
大的因素 ,是当前可见的标识数目和系统模板库
的大小 ,可见标识数目越多 ,系统模板库越大 ,处
理时间越长 .
我们在 CPU 为奔腾 IV 2 .66GHz ,显卡为
Geforce 2 GTS 32M 显存 ,内存 512MB DDR 的
PC 平台上 ,采用相同规格的模板试验 .当 AR-ToolKit 模板库大小为 9 个模板时 ,ARToolkit 和
ARTag系统运行速度大致相同 .模板库内标识数
小于 9 时 ,ARToolkit 运行速度略快 ,模板库内标
识数大于 9 时 ,ARTag 运行速度优势明显 .见图
9 .
图 9 两系统处理时间的比较
3 总结
本文结合试验 ,对比了当今 为成功和应用
广泛的基于标识的增强现实开源二次开发包AR-
Toolkit 和ARTag ,从多个方面论述了二者的优缺
点和原因 .总体而言 ,ARTag 在标识定位错误发
生率和表示混淆发生率方面表现良好 ,在不同光
照环境和有干扰噪声的情况下 ARTag 有更好的
健壮性 .因采用不同的模板匹配方式 ,ARToolkit和ARTag 在运行速度上表现各异 ,ARToolkit 较
适合模板规模小的应用 ,而 ARTag在模板规模比
较 大 的 应 用 中 处 理 速 度 更 快 .ARToolkit 和
ARTag已经广泛地应用于各类多媒体展示系统 ,
增强现实系统开发将越来越高效 ,越来越普及 .
53第 3 期 王维廉 ,等 :两种基于标识的增强现实注册方法的比较
[参 考 文 献]
[1] AZUMA RONALD T .A survey of augmented reality[J] .Teleoperators and Virtual Environments ,1997 ,6(4) :355 - 385 .
[2] 孙红光 ,顾海军 ,潘毓学 ,等 .Gabor 小波和变形模板的目标跟踪方法[J] .东北师大学报 :自然科学版 ,2006 ,38(3) :8 - 12 .
[3] 任波 .基于 ARToolKit 的增强现实系统开发与应用[J] .计算机系统应用 ,2006 ,1(1) :81 - 84 .
[4] 陈金波 ,吴家麒 ,袁政鹏 .一种基于自然特征点的增强现实注册方法[J] .上海大学学报 ,2005 ,11(06) :574 - 578 .
[5] KATO H .MagicCup :a tangible interface for virtual objects manipulation in table-top augmented reality[J] .Augmented Reality Toolk-
it Workshop ,2003 ,7 :75 - 76 .
[6] WAGNER D ,BARAKONYI I .Augmented reality kanji learning mixed and augmented reality[J] .The Second IEEE and ACM Inter-
national Symposium ,2003 ,7 - 10 :335 - 336 .
[7] FIALA M .Automatic projector calibration using self-identifying patterns[J] .Computer Vision and Pattern Recognition ,2005 (3) :
113 - 113 .
[8] FIALA M .ARTag ,a fiducial marker system using digital techniques[J] .Computer Vision and Pattern Recognition ,2005(2) :590 -
596 .
The comparison between two pattern-basedaugmented reality registration methods
WANG Wei-lian1,WANG Bei-xing2
,HUANG Lan3
(1 .School of Computer Engineering and Science ,Shanghai University ,Shanghai 200072 ,China ;
2 .Department of Economic Information Management ,Changchun Taxation College ,Changchun 130117 ,China ;
3 .College of Computer Science and Technology ,Jilin University ,Changchun 130012 ,China)
Abstract :This paper introduced two pattern-based augmented reality developing packages :ARToolkit and
ARTag .Comparing the two packages in terms of false negative rate ,inter-marker confusion rates and pro-cessing speed ,the author also gave out the reasons from the views of algorithms and principles .Examples
and future prospect are given .
Keywords :augmented reality ;pattern pecognition ;3-D registration ;fiducial
(责任编辑 :陶 理)
63 东 北 师 大 学 报 (自 然 科 学 版) 第 39 卷