第27卷第3期 2012年5月 数 据 采 集 与 处 理 Journal of Data Acquisition&Processing Vo1.27 No.3 May.2012
文章编号:1004—9037(2012)03—0363—05
基于随机化映射和模式熵的近似重复图像检测
蔺博宇 郭志刚 李弼程 高毫林 彭天强
(解放军信息工程大学信息工程学院,郑州,450002)
摘要:针对传统方法检测效率低的问题,提出了一种基于随机化映射扣模式熵的近似重复图像检测方法。该方法 先利用精确欧式空间位置敏感哈希(Exact euclidean locality sensitive hasing,E LSH)进行快速过滤,滤除大部 分非近似重复图像对,然后对于剩余的图像对,再采用尺度旋转不变模式熵(Scale—rotation invariant pattern en— tropy,SR—PE)进一步去除错误的匹配,从而实现近似重复图像检测。实验结果表明,新方法在不明显降低性能 的前提下大大加快了近似重复图像检测的速度,在检测性能与速度之间取得了较好的平衡。 关键词:图像检测;随机化映射;模式熵 中围分类号:TP391 文献标识码:A
Near-Duplicate Image Detection Based on Random Mapping
and Pattern Entropy
Lin Boyu,Guo Zhigang,Li Bicheng,Gao Haolin,Peng Tianqiang (Institute of Information Engineering,PLA Information Engineering University,Zhengzhou,450002,China)
Abstract:To solve the low efficiency of the traditional methods,a new near—duplicate image detection method based on random mapping and pattern entropy is proposed.Firstly,Exact euclidean locality sensitive hashing(E LSH)is used to filter most of the non near—duplicate im— age pairs.Then,a pool of vastly reduced image pairs is further invested by scale—rotation in—
variant pattern entropy(SR—PE)for removing the wrong matches,thus realizing the near—du— plicate image detection.Experimental results show that the novel method significantly speed up the detection without apparent degradation in performance and achieve a good balance between
detection performance and efficiency.
Key words:image detection;random mapping;pattern entropy(PE)
引 言
随着互联网技术的快速发展以及各种图像编
辑软件功能的日趋强大,当前网络上涌现出海量的
数字图像。其中,存在大量的近似重复图像。根据
所做修改的不同,近似重复图像主要分为3类[1_4]:
(1)编辑操作(如滤波、裁剪以及改变对比度、饱和
度和分辨率等)的影响;(2)物体运动、添加和遮挡
引起的场景变化;(3)照相机设置及拍摄角度的变
化。本文只针对第一种情况。图1给出了由于裁剪、
旋转、加框、改变对比度和饱和度形成的近似重复
基金项目:国家自然科学基金(60872142)资助项目。 收稿日期:2011—07—18;修订日期:2011—10—18 图像。近似重复图像的出现,随之带来了版权侵犯
和检索结果存在冗余等诸多问题。因此,迫切需要
一种技术来解决上述问题,近似重复图像检测技术
应运而生。 在近似重复图像检测任务中,Chang等[2 提出
了一种随机属性关系图匹配框架,属性关系图的每
个顶点代表局部特征点,每条边表示局部特征点之
间的空间关系,然后基于期望最大化(Expectation—
maximization,EM)学习算法计算图中的参数。但
是,属性关系图匹配方法包含复杂的随机置信传播
过程,因此,检测速度很慢。Zhao等[3 提出了一种
尺度一旋转不变模式熵(Scale—rotation invariant
364 数 据 采 集 与 处 理 第27卷
-__
__
图1近似重复图像
pattern entropy,SR—PE)算法,在点点对称(One—
to—one symmetric,OOS)匹配的基础上进行SR—
PE计算。然而,通常一幅图像含有成百上千个局
部特征点,oOs匹配十分耗时,即使采用了局部感 兴趣点索引结构(Local interest point—index strut— ture,LIP—IS)来加快匹配的速度,速度提升的幅度 有限且伴随着检测性能的下降。Xu等L4 提出了一
种空间对齐金字塔匹配(Spatially aligned pyramid matching,SAPM)算法,利用推土机距离(Earth movers distance,EMD)度量图像块间的相似性。
由于EMD计算代价太高,造成SAPM算法效率低
下。综上所述,现有方法都需要对每对图像进行复 杂的计算,而图像对的数量与数据集大小成平方关
系,因此,普遍存在效率低的问题,不适用于实时在 线近似重复图像检测。 非近似重复图像对增长的速度远远大于近似 重复图像对增长的速度,非近似重复图像对所占比 例越来越大,将它们快速滤除就成为高效检测方法
的重要组成部分。因此,本文提出了一种基于随机 化映射和模式熵的近似重复图像检测方法。该方法 先利用E LSH[5]进行快速过滤,滤除大部分非近似
重复图像对,然后对于剩余的图像对,再采用SR— PE进一步去除错误的匹配。
1 E LSH原理
E LSH是位置敏感哈希LSH在欧式空间的一 种随机化实现方法,它的基本思想是,利用基于P一
稳定分布的位置敏感函数对高维数据进行降维映 射,使得原始空间中距离很近的两个点经过映射操 作后依然很近。位置敏感函数以及p一稳定分布的定
义如下。 定义1给定点集 中任意点g,',∈S,函数族
:{h: 一 )是位置敏感的,如果函数
P( )一PrHEh(g)一h(',):1l g一’,1I—t3(1) 随t严格递减,即点g和v碰撞概率随它们的距离递 减。 定义2分布D被称为户一稳定分布,如果存在
户≥0,使得对于任意,z个实数 一, 以及服从D 分布的独立同分布变量x 一, ,随机变量
∑M x 和(∑ 吉x同分布,这里x是服从D
分布的随机变量。 具体地,E。LSH中使用的位置敏感哈希函数
具有如下形式
ha,b㈤一l j (2)
式中:l・J为向下取整操作;口为从满足户一稳定
分布函数中随机抽样得到的d维向量;b为一个在
E0, ]上均匀分布的随机变量。哈希函数h (',):
一z把一个d维向量',映射到整数集上。为拉大
距离近的点映射后碰撞概率与距离远的点映射后
碰撞概率之间的差距,E LSH将若干个位置敏感
函数联合起来使用。定义函数族
一{g:S— U ) (3)
式中g(1,)一(^ (1,),…,hk( )),h (・)∈ 。式(3) 中k决定了哈希冲突的概率,k越大,哈希冲突的概
率越小。同时,由于函数g(1’)具有随机性,为了降低
这种随机性,从函数族 中选取 个独立的函数
gl,…'gL o 对于每个数据点l,∈ ,经函数g(1,)∈ 降维
映射后,可以得到一个k维的向量c:==(c ,C:,…,
)。E。LSH利用主哈希函数h 和次哈希函数h 对
降维后向量进行哈希,建立哈希表存储数据点,h
和h:的具体形式如下
hl( c2,…,Ck)=((∑r:C1)rood prime) 一1 rood tablesize (4)
^ h2(c1,c -., )=(∑r,Ci)mod prime (5) =1 式中:r 和r,为随机整数;tablesize为哈希表的大
小,其取值为数据点的总个数;prime为一个大的
素数,取值5~2弛。
2 基于随机化映射和模式熵的近似
重复图像检测方法
本文将E LSH和SR—PE应用于近似重复图像 检测,实现了一种基于随机化映射和模式熵的近似 重复图像检测方法,该方法的流程如图2所示。
第3期 蔺博宇,等:基于随机化映射和模式熵的近似重复图像检测 365
E LSH过滤
图像
图2近似重复图像检测流程
2.1 E LSH过滤
利用函数g ( =1,…,L)将图像中的每个尺度
不变特征变换(Scale invariant feature transform, SIFT)[ 点哈希到 个桶中,对桶建立倒排文档,
统计两幅图像共现桶(特征点哈希到同一个桶中)
的数量。那么,若两幅图像共现桶的数量越多,则近
似重复的程度越高。其详细过程如下:
(1)SIFT点检测。对于图像数据库 一{I ,I ,
…, 一, 一 , ),检测出 中所有图像的SIFT特
征点,得到包含m个点的点集S={S ,S:,…, …,
一 , ),其中每个点&都是一个128维的SIFT特
征向量。
(2)E LSH降维映射。对,中的每个SIFT点s,
利用函数g ( =1,…,L)对其进行降维映射,得到忌 维的向量g ( )。
(3)E LSH桶哈希。按式(4,5)分别计算SIFT 点 的主哈希值h (gl( ))和次哈希值h2(g ( ))。将
主、次哈希值都相同的点放人同一个桶中,生成哈 希表T =(B ,B ,…,B ,…,Bj;)_1,B }( =1,
…,L),B 表示哈希表丁 的第k个桶,Ⅳ 为哈希表 丁 中包含桶的个数。
(4)建立倒排文档。对所有的桶{B{”,B;",…
B ,…,Bj ,…,B 一 ,B )建立倒排文档,其每
一项由包含桶B ’的图像集组成。 (5)E LSH过滤。对于每对图像<Ii,It>,l≤
i<j ̄n,统计共现桶的数量coBucketNumu。由于
哈希冲突的影响,可能造成并不相似的点也哈希到 同一个桶中。因此,引入阈值丁以舍弃没有足 够匹配点对的图像对,减少哈希冲突的影响,保留 coBucketNum >丁的图像对< ¨It>,1≤i<j≤
。通常,n 《,z。
2.2 SR—PE检测
对于剩余的图像对,先进行局部特征点匹配,
然后再计算匹配模式。其详细步骤如下。 (1)采用LIP—IS+OOS进行局部特征点匹配。
(2)估计每两个匹配上点对的尺度S和角度 。
设 和q 为图像i中的两个关键点,分别匹配到图
像J中的户 和q 。令长度z 为P 到q 的欧式距离,
长度z』亦然,则估计尺度S为z / ,角度0为 和 的
夹角。
(3)分别对s和0进行mean—shift聚类。 (4)确定每个点对的聚类隶属关系,即将每个
点对分配到其出现次数最多的那一类。
(5)设两种划分分别为P={户z,户。,…,户 )和
Q=(q ,口。,…,口 ),其中,户 和q 代表类,且m≤n,
则模式熵PE。 定义为
PE。 (Q,P)=--)uY
…]Entropy(qi P) (6)
其中,
胁娜 =一 荟 ×
log (7)
M一∑Iq I一∑ (8) qi6O PiGP 式中:l q n f为q 和P 交集大小; 为匹配点对
的总数量。实验中,判断PE <O.5的图像对即为近
似重复图像对。 斓 口.1 像 Y二 白近似重复图像对