第36卷
VoL36 第7期
No.7 计算机工程
Computer Engineering 2010年4月
April 2010
・多媒体技术及应用・ 文章编号:.10o0_- 428(20l0)07—__0239—I13 文献标识码:A 中图分类号:TP37
基于视频指纹的视频片段检索方法
李泽洲 ,欧阳建权 ,张敏 ,刘炜 ,
(1.湘潭大学智能计算与信息处理教育部重点实验室,湘潭411105;2.湘潭大学信息工程学院,湘潭4l11O5)
摘要:提出一种基于视频指纹的视频片段检索方法,通过视频指纹的相似性匹配对视频片段进行检索。通过改进的Harris检测计算DC
图像的角点信息,去掉视频图像边缘提取视频运动特征,根据图像特征相似度和运动特征相似度的调和因子得到视频片段总的相似度。实
验结果表明,与现有方法相比,该方法能准确检测视频片段,具有较强的鲁棒性,满足视频检索的实时要求。
关健词:视频指纹;Harris检测;视频检索
Video Segment Retrieval Method Based 0n Video Fingerprint
LI Ze—zhou .一,OUYANG Jian.quan ,ZHANG Min ,.,LIU w
(1.KeyLaboratory ofIntelligentComputing&Information Processing,Ministry ofEducation,XiangtanUniversity,Xiangtan 411105; 2.College of Information Engineering,Xiangtan University,Xiangtan 4 1 1 I o5)
[Abstract]This paper produces the fingerprint by combining both the image feature based on the improved Harris detection and the motion feature
based on the differences between thc adjacent video flames,and retrieval video segment through similarity match of the video fingerprint.The comer descriptor of the DC image is generated based on the improved Harris method.Moreover,the motion featum is extracted by trimming the
image edge of the video.The fusion factor which combines the similarity of image feature and motion feature is constructed to calculate the similarity between the candidate videos and original videos.Compared with existing method,the method proposed in this paper retrieves video
segment accuracy and meets the requirements of real—time. IKey words]video fingerprint;Harris detection;video retrieval
1概述 视频以其信息量大、直观的特点,给人们获取信息和娱
乐带来了很大的便利,于此同时,对指定视频片段进行检索 已得到越来越多的关注。比如,企业部门希望能够知道自己
的广告在电视台的播出次数和时问,文化监管部门需要对互
联网上违法视频进行监控等。但由于视频数据量大,传统的
检索模式难以做到快速、准确,因此怎样从巨大的视频仓库
中快速准确地检索出指定视频片段,成为急需解决的难题。 目前针对视频片段检索一般采用2种方法:基于视频结 构数据的视频检索lI 和基于视频标志的视频检索。主要有
2种途径:基于水印进行视频检索和基于数字指纹进行检索。
数字水印技术由于要在视频产品中植入一段特殊的识别信
息,使这种技术容易受到有目的的攻击。数字指纹技术认为
多媒体本身就是水印,即多媒体自身包含丰富的信息用于进
行视频检索,其方法一般是先提取多媒体的底层特征,然后
与可疑多媒体的底层特征进行比较。因此,视频底层特征提 取,即视频指纹的提取,是该技术的重点。
视频指纹要求具有2个性质:(1)指纹具有较强的鲁棒性;
(2)指纹提取方法的高效性。目前已有很多视频指纹提取的方
法,如文献[2】基于Harris检测,计算帧图像的兴趣点,产生
视频指纹,由于Harris检测存在定位和稳定性方面的问题,
导致视频指纹的鲁棒性不强。文献[3]提出基于质心倾斜来提
取视频指纹,该方法时间复杂度比较高,不能快速地对视频
进行检索。文献[4]通过视频顺序特征和颜色特征相结合产生 视频指纹,但该方法的查全牢和查准率不高。 针对上述问题,本文一种结合基于改进的Harris检测提
取图像特征和基于帧间差异提取运动特征的视频指纹产生方 法,通过视频指纹的相似性匹配进行视频检索。该方法对视
频的亮度变换和尺寸变化有较强的鲁棒性,并且满足视频检 索的实时性要求。
2总体设计方案
本文方法的总体设计方案如图1所示。
~一一一一一一一一视频指纹提晕卜一一一一一一一一一
图1总体设计方案
基金项目:湖南省教育厅优秀青年基金资助项目(06B095);湖南省 研究生科研创新基金资助项目(X2008yjscx l 9) 作者简介:李泽洲(1984--),男,硕士研究生,主研方向:多媒体处
理;欧阳建权,副教授;张敏、刘炜,硕士研究生 收稿日期:2009一I 1-04 E—mail:kissingman I gmail.corn
该方法的特点如下: (1)基于DC图像序列(MPEG文件I帧的DC系数组成的
序列)提取视频指纹,缩短了指纹提取的时间,提高了视频检
索的效率。
(2)通过对Harris检测进行改进,更加准确地计算DC图 像的角点信息,提高了图像特征提取的准确性。
(3)将改进的Harris检测提取图像特征和基于帧间差异提
取运动特征相结合产生视频指纹,使提取的视频指纹具有更 强的鲁棒性。
3视频指纹提取 视频指纹提取的关键是视频特征提取是否准确,视频最
重要的2个特征是图像特征和运动特征,视频的图像特征是 指视频帧的颜色特征、边缘特征、纹理特征和角点特征等。
视频的运动特征是指相邻视频帧之间的差异,运动特征是视 频区别于图像的特有特征,体现了视频帧随时问的变换趋势。
3.1图像特征提取 在提取图像特征的过程中,使用局部特征得到整个图像 特征,这样的特征提取对图像的几何变换亮度变换具有很强
的鲁棒性,使用Harris检测是个很好的选择。Harris检测的
基本思想是用自相关函数来确定当信号在2个方向都有较大
变化时该信号所在的位置。但Harris检测存在定位和稳定性
方面的问题,对图像的旋转和缩放比较敏感。一般都是在应 用Harris检测前对图像进行应用某种过滤器(如高斯过滤、双
向过滤)进行平滑处理。对DC亮度图像,使用过滤器g的卷
积表达式为 ( )= ( )』e,( )g( , )d
其中, 是像素位置;,( )是DC图像 位置的亮度值;g( ,X)
表示加在,(a上的权重,由 进行规一化。权重取决于2个
像素点之间的欧氏距离。在高斯过滤器中,这种相似性度量
表示为
… 一 ,l g( , )=exp ,
鉴于高斯过滤在平滑时的模糊效应,因此,该方法存在 定位和稳定性方面的问题,本文萤新给出一个相似性度量函
数,考虑了像素问的距离,得出如下卷积公式:
( )=kg(x)l_亡:,( ) (,( ),,( ))d
当 满足下式时可用来对S进行规一化:
( )fe s(I(O,,( )d =1
可在计算 时确定其值。为保持在DC亮度图像的
Harris检测中出现的距离一致性,相似性度量 使用欧氏
距离:
(cl_c2) (cl-c0 : (cl,C2)=exp 05
得到平滑算子表达式:
( )= ( )』[二,( )g( , ) (,( ), ( ))d
规一化表达式为
)feg( ,x)s(X(O,I(x))d4=1
在以上面的过滤器进行DC亮度图像的平滑处理后,可
以进行兴趣点的Harris检测: C = ( 一krP(g) 其中,H=grad(I) grad(I) ,k值可由试验确定。
根据下列规定,通过选择局部区域的最大R值,即可提
取出兴趣点:
-240--- ( )>R(w) W∈NB( ) NB(x)指像素点 的领域。
将DC亮度图像划分为MXN的块,统计每块中的兴趣
点的数目为G(m,,?),其中,m=l,2,…, =1,2,…,Ⅳ。
最后得到整个视频片段的图像特征Y(m,”,p),其中
r(m, ,P)表示第尸个I帧DC亮度图像的G(m, )值。
3.2运动特征提取 运动特征是视频区别于图像的一个重要特征,因此,运
动特征提取对视频检索有非常重要的意义。由于相邻帧之间
相同区域的差异能很好地反映视频的运动特征,因此文献【5】
提出了用帧间差异来表示视频的运动特征:
, 、 I1 ifQ(r,c,p)≥0 (1) b p)=0 ifQ(r,c,p (o
Q(r,c,p)=(F(r,c+1,p)一F(r,0,p))一 (,(,,c+1,P一1)一F(r,c,P一】)) 其中,Y(r p)表示第P帧(r,c)位置的像素值。
该方法基于像素域提取运动特征,速度比较慢,并且对
于在视频下边缘添加字幕(如电影的翻译字幕,电视台的公告
等)的视频攻击鲁棒性不强。 鉴于该方法的缺点,本文基于DC亮度图像序列计算视
频运动特征,提高了运动特征提取的效率。在视频下边缘添 加字幕严重影响视频运动特征的准确性,如果去掉视频下边
缘,基本不会影响视频特征的提取,因此,去掉视频边缘提
取视频运动特征能使特征提取更加准确,算法如下:
(1)将第r个I帧DC亮度图像分成R×C块,计算每一块
亮度的和F(r,C, ),其中,F1,2,…,R;c=l,2,…,C。
(2)去掉图像下边缘,即r=l,2,…,R・2,根据式(1)计算运
动特征串B(r,c,p),其中,运动特征串的长度为 一2)X(C-1)。
4相似匹配 提取视频指纹后,进行视频指纹的相似性匹配,分别计
算视频片段Q与视频库中视频S的图像特征相似度 ( , )
和运动特征相似度 ( , ),通过调和因子 (本实验中
W-0.42)得到视频片段的总的相似度,计算公式如下:
s(Q, )= × ( , )+(1一w)x ( , )(0< <1)
其中, ( , )和 ( ,Bs)通过计算城市距离得到。
5实验结果与分析 本文的实验环境如下:硬件:Pentium(R)D 3.00 GHz CPU, 1.O0 GB RAM,软件:Windows xP,Visual c++6.0。实验数
据来自通过电视转播转录的MPEG—I节目,视频总长度为
10.2 h,分辨率为352X288,帧率为25帧/s。 算法的查全率 和查准率尸分别由下式给出:
查准率=
杏全率:—— 型—— 正确检测+丢失检测 除了常用的查全率R和查准率P,本文还使用了查全率
和查准率的调和平均值F-value来评价算法性能。F-value的
定义为F= 。 K七r (1)准确性分析 文献[4]通过视频顺序特征和颜色特征相结合的方法进
行视频片段检索。本文方法与文献[4】方法的比较结果如图2 所示。分别计算2种方法的F-value值,结果得到本文方法最
好的F—value值为91.54%,而文献[4】的方法最好的F—value