MicrocomputerApplications Vo1.26,No.11,2010 技术交流 微型电脑应用 2010年第26卷第11期 文章编号:1007-757X(2010)11-0049-02 基于马尔可夫随机场的单目图像深度估计
张蓓蕾,刘洪玮 摘要:图像深度获取是机器视觉领域活跃的研究课题。将图像深度估计问题归结为模式识别问题,以单目图像深度为待分 连续模式类,在多尺度下对图像块提取绝对和相对深度特征,选择表征上下文关系的MRF(Markov Random Field)一MAP (Maximumaposteriori)方法,建立拉普拉斯模型,表述某图像块的深度和其邻域深度之间的关系。实验得到了某一类单目 图像对应的深度图像,证明了该算法的有效性。 关键词:单目图像;深度图像;马儿可夫随机场;最大后验概率 中图分类号:TP391 文献标志码:A 0引言 图像深度信息的获取,旨在得到图像中不同对象间的空 间位置信息,广泛应用于图片理解(目标识别、场景层次、 姿态感知),三维立体重建(物体、场景的三维现实模拟)、 机器人视觉(机器人行为指导)等方面。 目前主要有两种方法获得图像深度信息:一种是深度感 应器,原理是利用射线的反射时间计算距离,这种方法的优 点在于精度高,但缺点是设备成本较高,例如三维激光扫描 仪。另一种方法是基于一个场景的多幅图像或图像序列,利 用多视图摄像几何,通过求取视差,获取深度值,例如基于 双目『111、三目『2】、多目【3】、环目『4】的三维立体化方法。其 优点是条件充足,算法易行,缺点是需要摄像机参数,专业 知识要求较高。 本文利用单目图像进行深度估计,基本原理是:以模式 识别原理为框架,采用MRF(Markov Random Field) 一MAP((Maximum a posteriori)【5】方法,建立拉普拉斯深度 估计模型。实践证明该方法成本低,无需昂贵测距设备,无 需摄像机内部及外部参数,应用范围广。 l深度估计与模式识别 模式识别是指对表征事物或现象的各种形式的(数值 的、文字的或逻辑关系的)信息,进行处理和分析,进而对 事物或现象进行描述、辨认、分类和解释的过程,是信息科 学和人工智能的重要组成部分。模式识别系统的基本框架如 图1所示: 样本对象集 薄 甫 _-一分类器设计 描 L_・ 薛 分类决策 待分对象集I 描 I 图1模式识别基本过程 本文的基本思想是:将深度估计问题归结为模式识别问 题,深度即连续的待识别的模式类,图像及其对应深度图像 组成的图像对集为样本对象集,对样本对象和待分对象分别 提取深度特征,以贝叶斯原理为基础,建立分类器进行分类 决策(拉普拉斯模型),并由样本对象集训练得到模型参数, 通过最优化方法求取最大后验概率,估计出某图像块对应的 深度值。 2 MRF.MAP模型框架 构造MRF.MAP先验模型包含3个步骤【5】: (1)确定邻域和对应的基团对规则位置集(点集)、点(xy) 的邻域为 ,={ , ):0< -0 + 一,) c},由c决定邻域结沟的 大小和相应的基团;对不规则位置集,根据Delaunay三角 形(或Voronoi多边形)确定任一位置的邻域,它们有不同的 形状和尺寸,按包含的位置数划分邻域类型;在图像理解和 目标识别等问题中,常借助图论(graph theory)的方法构造 Markov图,由它表示处理这些问题时所需的上下文关系(约 束),确定邻域结构及基团。 f2)选择好基团后,再确定其函数。 (3)确定后验分布,基于随机场 的先验分布和测量噪 声分布的特征,根据Bayes定理,求得给定测量数据Y=y时, X=x的后验概论P(xlyY=p(ylx)p(x)/p(y),其中p )是一个 先验Gibbs分布,‘p(xly)是给定X=x时,Y=y的条件概论, 也称之为似然函数,它是描述测量数据条件分布的,pCy)是 一个未知常数,通常,该后验分布是关于 的邻域系统的 MRF分布。 f4)基于恰当准则的最优估计确定了上述后验概论后, 给定问题的解与预先确定的准则有关,例如MAP估计,它 是最大后验概论准则下的解。 (5)算法实现,直接求Bayes估计具有指数复杂性,因 为需要计算所有可能状态的后验概率,实际上是不可行的, 通常避开这个问题,选择可行的途径和算法。 基金项目:1国家自然科学基金(60502042);2上海市启明星基金(06QA14003)资助 作者简介:张蓓蕾(1983.),女,河南濮阳人,东华大学信息科学与技术学院,硕士,图像处理与模式识别,上海201620 刘洪玮(1982.),男,江苏徐州人,东华大学信息科学与技术学院,硕士,电力电子与电气传动,上海201620 ・49・
Microcomputer Applications Vo1.26,No.11,2010 技术交流 微型电脑应用 2010年第26卷第ll期 MRF方法有多种改进形式,例如CRF(条件随机场)和 DRF(区别性随机场)。 3基于MRF—MAP的拉普拉斯模型 3 1深度特征的提取 将一幅图片切割为小的正方形块,以块为单位提取深度 特征。深度特征的描述基于图像纹理,提取的纹理特征须对 噪声具有鲁棒性,深度特征的分类如图2所示。一幅图中, 同一对象在不同的尺度下表现出不同的分辨率,不同的相对 大小,以及不同邻域关系,因此在特征提取时采用多尺度模 型。 绝对深度特征的获取f6J:计算图像1 )第i块的统计信 息之和。对于每一块我们分别用1 5个模板(9个law’S mask, 6个纹理梯度)进行滤波,即 ,Y/=1 ,l5。对第i块的第n 个特征可以表示为:E(n)=∑㈧ 川 )l, 其中k∈{1,2), 这样便可初步得到一个30维的向量。由于许多结构在室外 情景中,往往在垂直结构上与自身相连接(并不是悬浮于空 中而是立于地面),因此,对块赋予柱状特征,由上到下, 由大到小。 同质纹理:分辨军小I 蛛厦小刷 绝对深 纹理 不同质纹理:区分不同对象 深 度特征 纹理梯度方向:深度变化虽舫向 度 (局部) 特 柱状:基于地面,在垂直方向上反映深度信 祉 相对深度特征瘟反映相邻的块间的纹理特征的相对差异 f连续性特征) 图2深度特征的提取 相对深度特征的获取:对于15个滤波器过滤后的图像, 针对每一个结果得到一个具有十分的直方图,这样对于尺度 上的块i就有150个相对深度特征 (150维的向量)。 以对应直方图的差值Y =Y 一Y, 为特征向量。 3_2基于lVlRF.MAP的拉普拉斯模型的建立 设,为一幅图片,设Y: 为图像的观察值,其中 为每个单元块的观察值;,设 =k} 为相应单元块对应的标 记,其中 表示满足MRF的邻域系统。当以】,作为条件变 量时,如果随机变量而满足马尔可夫性,即有 P(tl ,Xx一 )=P( lY, M),其中 为单元块i的邻域,则( ) 构成CRF(ConditionalMarkovField)。对于Vx,有P(xly)>0, 假设只有成对的簇的势能不为零,由Hammersley-Clifford 定理知,在观察值Y条件下,x的联合分布为: 尸( y)=exp( ̄A (‘,y)+∑∑ ( ,■,)t)) (1) E J∈ 由(1)式,考虑2个尺度,则有
・50・ (d ,0,O-)= l e砸∑^( ,‘)吲备^‘ ^’ ∑∑∑ ( d t)) :一 o"1, (2)
(3) , 一l堡 : (4) 0"2 将(3),(4)带入(2),则有: ( 目, )= Z ̄-exp(-善 ㈤ ∑∑∑ s…1 1 EⅣ(J) 其中:PL( ,cr)表示后验概率, 为归一化常数,标 准常量,可以定为l,M代表把一整幅图像划分为M块, 鼍为图像块i的”维深度特征向量, 为多尺度模型中尺度 个数,本模型中S=1,2,NO)为图像块_,的邻域,本文选择4 邻域系统, )表图像块i在尺度 下的绝对深度,在4邻 1一 域系统中有 ( ) { J (1)呻}dJ( )。 本模型为拉普拉斯模型。采用本模型的原因有三: (1)是在 ,部分,拉普拉斯分布比高斯分布更接近于 (出 )的直方图。 (2)拉普拉斯分布对于图像的特征和训练深度图像的 特征结果更稳定。 (3)拉普拉斯模型对图像的边缘敏感,因此对于结果 的显示会比较好。 深度d随着深度特征 的变化而变化的。 ,O'lr, ̄T2r: 为模型参数。其中r表示图像分块后,每一块所在的行,因 为摄像机为水平放置的,则不同行统计特性不同。 参数 ,0"1,, 在模型中的极大似然估计不易计算,首先 由线性方程可以近似得到 dr,例如可以求使得 min 一Xrorll。最小的0,。将 : 的估计与 联系起来,令 0-2 =“ l,这样有助于表现相邻的块间深度差异,使平滑 效果显著。应用于空间尺度模型,则需对每尺度下每一行的 参数 进行估计。将对 的估计转化为对“ 的估计, “ ≥0,使用二次规划实现最优值。与仃: 的估计类似,令 0"1 .7-V T ,由Xi非负,6 h非负知,V, 0。6 l 用来衡量 。,中深度对于特征的不确定性。这说明深度并不能完全依 赖于局部特征( ,,),而要依赖于邻域块的深度(I )。其 中y,和U 是相互独立的。在对参数近似表述之后,可将问 题转化为线性规划问题。设 d =arg mln log P( j , , )= d , 、 arg m log(c1 l —XO l+c2 {) (下转第59页)
MicrocomputerApplications VoL 26,No.11,2010 技术交流 微型电脑应用 2010年第26卷第ll期 Publishers 2001.614--617. f51 Giacomo Cabri,Luca Ferrari,Letizia Leonardi Agent role-based collaboration and coordination:a survey about existing approaches[C]. IEEE systems, Man and Cybemetics Conference.2004 6:5473.5478 【6】See ACL at htp://www.fp a.og/r@ositoy/acl ̄ecs.htm1. 『71 GreenwoodD,LyellM,MallyaA,SuguriH.TheIEEE F IA Approach to Integrating Software Agents and Wleb Services In: Sixth International Conference on Autonomous Agents and Multiagent Systems,Industrial Track(2007). f81 Liu S,Kitngas MatskinM.Agent-BasedWleb Service Composition witl1 E and JXTAit].Proc.of Intl Conference on Semantic Web and Wleb Services(SWWS1 2006.1lO.116. 【9]Nguyen X T and Kowalczyk R.WS2JADE:Integrating Web Service with JADE Agents[C1.Proceedings of the AAMAS’05 WOrkshop on Service-Oriented Computing and Agent-Based Engineering fSOCABE’2005) Utrecht, 1]he Netherlands.2005. 『101 Sycara K,Paolucci M,Soudry J.Dynamic Discovery and Coordination of Agent-based Semantic Wleb Services『 . IEEE Intemet Computing,2001,8f31:66.73. 【ll】XuanThang,RyszardKowalczyk.EnablingAgent-Based Management of Wleb Services with WS2JADEIC]. Proceedings of the Fifth International Conference on Quality Software,2005:407-412. 『121 CAO Jian,ZHANG Shen-sheng.Research on Adaptive Wl0rkflow Techniques Based on ECA Rulel¥].Computer Integrated Manufacturing Sy stems.CIMS,2002,8(9): 737.741. n31 ITU.T Recommendation E.800,Terms and defmitions related to quality of service and network performance including dependability.1 994. f141 Menasce D A.QoS issues in W_eb services,Intemet Computing班髓,Volume 6,Issue 6,P72.75,N0v.-Dec 2002 【l5】赵勇,刘吉强,韩臻,沈昌祥基于任务的访问控制模型研 究.计算机工程2008(5):28-30. 『161 See JADE website at http://jade.tilab.corn/. r收稿日期:2010—02.25) c6 c6 c6 c6 c£ c6 c6 cE c6拳c6 c6 t6 c6拳c6事c6 c6 6 c6 c61 c6 c6事c6事c6 c6 6事c6 c6 c6拳c6 c6¥c6 c6 c芒争c6 c6争c6拳c6 (上接第50页) l度图像表示,例如白色部分为深度大于等于81m,对应灰度 其中cl∈孵 ,c1,。=1/o"1, ,同理C 2∈飒 ,C2.f=1/tr2,。, 特征向量X∈9tM*k,Or∈瑕 ,设-d=XOr∈飒 ,O是一 个矩阵,Od给出了多层次下相邻块间深度的不同,我们增 加变量 和 2,则可转化为线性规划问题: d’=argmin 轰+C2 2 (7) 一 ≤d—d (8) 一 Od (9) 求解线性规划即可得到优化问题的解。 3I3实验结果及分析 图像及深度图像的训练库,由康奈尔大学计算机学院的 官方网站上获取。训练库中选取了100幅图像对,原图像为 1707"2272,深度图像为86*107,则图像块的大小为约为 20*20,由于激光扫设备的限制,深度的范围为0-81m,则 远于81m的深度都标记为81m。 ■
(a) (b) (c) 图3实验结果 本文以Matlab.R2007a为实验平台,测试图片在原图片 库中选取。处理一幅图片,从测试图片对象上看,该方法对 于白天拍摄的、室外、遮挡和反射不明显、不同纹理差异较 大、同一纹理变化有规律的图片,处理效果比较好。由于未 将色彩对深度的影响添加入深度特征,本算法则对于纹理清 晰的灰度图片依然适用。结果如图3所示,将深度图像由灰
・59・ 为255,距离越远,颜色越浅。结果如图3所示,(a)为原图 像,(b)为原图像库中应深度图,(c)为模型拉氏模型结果. 4结束语 本文将深度估计问题归结为模式识别问题,选择表征上 下文关系的MRF方法,选取绝对和相对深度特征,建立多 尺度MRF.MAP模型,得到一种拉普拉斯有效模型。该模 型的发展方向,~采用新算法,降低运算复杂度。二进一步 改进自相关势能和互相关势能的表达方式,例如在自相关势 能部分可以考虑添加上多目深度特征。三针对不同类型的图 片(白天,夜晚,室内,室外,写实美术作品等)提取不同 的有效的深度特征。 参考文献 【1】程晓亮.基于双目立体视觉的三维重构研究[D】.哈尔滨 工业大学机械电子工程系2006.(6). 【2】 顾征,苏显渝三目自适应权值立体匹配和视差校准算 法【J1.光学学报,2008 28(4):735—738. 【3】赵梅芳,沈邦兴,吴晓明等.多目立体视觉在工业测量中 的应用研究 .计算机测量与控制.2003.11(11):833.836 【4】 仲思东,熊军,刘勇.基于全周多视角的三维重建技术【J]. 机器A2004 26f6 :558.562. 【5】陆明俊,王润生计算机视觉中的Markov随机场方法 . 电子科学学刊,2000,22(6):1028—1037. [6]6 Ashutosh Saxena,Sung H.Chung,Andrew Y Ng 3-D Depth Reconstruction from a Single Still Image[ ̄. Computer Vision.2008,76:53.69. (收稿日期:2009—10-11)