当前位置：文档之家› 基于视频指纹的视频片段检索方法

基于视频指纹的视频片段检索方法

第３６卷　

ＶｏＬ３６　第７期　

Ｎｏ．７　计算机工程　

Ｃｏｍｐｕｔｅｒ　Ｅｎｇｉｎｅｅｒｉｎｇ　２０１０年４月　

Ａｐｒｉｌ　２０１０　

・多媒体技术及应用・　文章编号：．１０ｏ０＿－　４２８（２０ｌ０）０７—＿＿０２３９—Ｉ１３　文献标识码：Ａ　中图分类号：ＴＰ３７　

基于视频指纹的视频片段检索方法　

李泽洲　，欧阳建权　，张敏　，刘炜　，　

（１．湘潭大学智能计算与信息处理教育部重点实验室，湘潭４１１１０５；２．湘潭大学信息工程学院，湘潭４ｌ１１Ｏ５）　

摘要：提出一种基于视频指纹的视频片段检索方法，通过视频指纹的相似性匹配对视频片段进行检索。通过改进的Ｈａｒｒｉｓ检测计算ＤＣ　

图像的角点信息，去掉视频图像边缘提取视频运动特征，根据图像特征相似度和运动特征相似度的调和因子得到视频片段总的相似度。实　

验结果表明，与现有方法相比，该方法能准确检测视频片段，具有较强的鲁棒性，满足视频检索的实时要求。　

关健词：视频指纹；Ｈａｒｒｉｓ检测；视频检索　

Ｖｉｄｅｏ　Ｓｅｇｍｅｎｔ　Ｒｅｔｒｉｅｖａｌ　Ｍｅｔｈｏｄ　Ｂａｓｅｄ　０ｎ　Ｖｉｄｅｏ　Ｆｉｎｇｅｒｐｒｉｎｔ　

ＬＩ　Ｚｅ—ｚｈｏｕ　．一，ＯＵＹＡＮＧ　Ｊｉａｎ．ｑｕａｎ　，ＺＨＡＮＧ　Ｍｉｎ　，．，ＬＩＵ　ｗ　

（１．ＫｅｙＬａｂｏｒａｔｏｒｙ　ｏｆＩｎｔｅｌｌｉｇｅｎｔＣｏｍｐｕｔｉｎｇ＆Ｉｎｆｏｒｍａｔｉｏｎ　Ｐｒｏｃｅｓｓｉｎｇ，Ｍｉｎｉｓｔｒｙ　ｏｆＥｄｕｃａｔｉｏｎ，ＸｉａｎｇｔａｎＵｎｉｖｅｒｓｉｔｙ，Ｘｉａｎｇｔａｎ　４１１１０５；　２．Ｃｏｌｌｅｇｅ　ｏｆ　Ｉｎｆｏｒｍａｔｉｏｎ　Ｅｎｇｉｎｅｅｒｉｎｇ，Ｘｉａｎｇｔａｎ　Ｕｎｉｖｅｒｓｉｔｙ，Ｘｉａｎｇｔａｎ　４　１　１　Ｉ　ｏ５）　

［Ａｂｓｔｒａｃｔ］Ｔｈｉｓ　ｐａｐｅｒ　ｐｒｏｄｕｃｅｓ　ｔｈｅ　ｆｉｎｇｅｒｐｒｉｎｔ　ｂｙ　ｃｏｍｂｉｎｉｎｇ　ｂｏｔｈ　ｔｈｅ　ｉｍａｇｅ　ｆｅａｔｕｒｅ　ｂａｓｅｄ　ｏｎ　ｔｈｅ　ｉｍｐｒｏｖｅｄ　Ｈａｒｒｉｓ　ｄｅｔｅｃｔｉｏｎ　ａｎｄ　ｔｈｅ　ｍｏｔｉｏｎ　ｆｅａｔｕｒｅ　

ｂａｓｅｄ　ｏｎ　ｔｈｅ　ｄｉｆｆｅｒｅｎｃｅｓ　ｂｅｔｗｅｅｎ　ｔｈｃ　ａｄｊａｃｅｎｔ　ｖｉｄｅｏ　ｆｌａｍｅｓ，ａｎｄ　ｒｅｔｒｉｅｖａｌ　ｖｉｄｅｏ　ｓｅｇｍｅｎｔ　ｔｈｒｏｕｇｈ　ｓｉｍｉｌａｒｉｔｙ　ｍａｔｃｈ　ｏｆ　ｔｈｅ　ｖｉｄｅｏ　ｆｉｎｇｅｒｐｒｉｎｔ．Ｔｈｅ　ｃｏｍｅｒ　ｄｅｓｃｒｉｐｔｏｒ　ｏｆ　ｔｈｅ　ＤＣ　ｉｍａｇｅ　ｉｓ　ｇｅｎｅｒａｔｅｄ　ｂａｓｅｄ　ｏｎ　ｔｈｅ　ｉｍｐｒｏｖｅｄ　Ｈａｒｒｉｓ　ｍｅｔｈｏｄ．Ｍｏｒｅｏｖｅｒ，ｔｈｅ　ｍｏｔｉｏｎ　ｆｅａｔｕｍ　ｉｓ　ｅｘｔｒａｃｔｅｄ　ｂｙ　ｔｒｉｍｍｉｎｇ　ｔｈｅ　

ｉｍａｇｅ　ｅｄｇｅ　ｏｆ　ｔｈｅ　ｖｉｄｅｏ．Ｔｈｅ　ｆｕｓｉｏｎ　ｆａｃｔｏｒ　ｗｈｉｃｈ　ｃｏｍｂｉｎｅｓ　ｔｈｅ　ｓｉｍｉｌａｒｉｔｙ　ｏｆ　ｉｍａｇｅ　ｆｅａｔｕｒｅ　ａｎｄ　ｍｏｔｉｏｎ　ｆｅａｔｕｒｅ　ｉｓ　ｃｏｎｓｔｒｕｃｔｅｄ　ｔｏ　ｃａｌｃｕｌａｔｅ　ｔｈｅ　ｓｉｍｉｌａｒｉｔｙ　ｂｅｔｗｅｅｎ　ｔｈｅ　ｃａｎｄｉｄａｔｅ　ｖｉｄｅｏｓ　ａｎｄ　ｏｒｉｇｉｎａｌ　ｖｉｄｅｏｓ．Ｃｏｍｐａｒｅｄ　ｗｉｔｈ　ｅｘｉｓｔｉｎｇ　ｍｅｔｈｏｄ，ｔｈｅ　ｍｅｔｈｏｄ　ｐｒｏｐｏｓｅｄ　ｉｎ　ｔｈｉｓ　ｐａｐｅｒ　ｒｅｔｒｉｅｖｅｓ　ｖｉｄｅｏ　

ｓｅｇｍｅｎｔ　ａｃｃｕｒａｃｙ　ａｎｄ　ｍｅｅｔｓ　ｔｈｅ　ｒｅｑｕｉｒｅｍｅｎｔｓ　ｏｆ　ｒｅａｌ—ｔｉｍｅ．　ＩＫｅｙ　ｗｏｒｄｓ］ｖｉｄｅｏ　ｆｉｎｇｅｒｐｒｉｎｔ；Ｈａｒｒｉｓ　ｄｅｔｅｃｔｉｏｎ；ｖｉｄｅｏ　ｒｅｔｒｉｅｖａｌ　

１概述　视频以其信息量大、直观的特点，给人们获取信息和娱　

乐带来了很大的便利，于此同时，对指定视频片段进行检索　已得到越来越多的关注。比如，企业部门希望能够知道自己　

的广告在电视台的播出次数和时问，文化监管部门需要对互　

联网上违法视频进行监控等。但由于视频数据量大，传统的　

检索模式难以做到快速、准确，因此怎样从巨大的视频仓库　

中快速准确地检索出指定视频片段，成为急需解决的难题。　目前针对视频片段检索一般采用２种方法：基于视频结　构数据的视频检索ｌＩ　和基于视频标志的视频检索。主要有　

２种途径：基于水印进行视频检索和基于数字指纹进行检索。　

数字水印技术由于要在视频产品中植入一段特殊的识别信　

息，使这种技术容易受到有目的的攻击。数字指纹技术认为　

多媒体本身就是水印，即多媒体自身包含丰富的信息用于进　

行视频检索，其方法一般是先提取多媒体的底层特征，然后　

与可疑多媒体的底层特征进行比较。因此，视频底层特征提　取，即视频指纹的提取，是该技术的重点。　

视频指纹要求具有２个性质：（１）指纹具有较强的鲁棒性；　

（２）指纹提取方法的高效性。目前已有很多视频指纹提取的方　

法，如文献［２】基于Ｈａｒｒｉｓ检测，计算帧图像的兴趣点，产生　

视频指纹，由于Ｈａｒｒｉｓ检测存在定位和稳定性方面的问题，　

导致视频指纹的鲁棒性不强。文献［３］提出基于质心倾斜来提　

取视频指纹，该方法时间复杂度比较高，不能快速地对视频　

进行检索。文献［４］通过视频顺序特征和颜色特征相结合产生　视频指纹，但该方法的查全牢和查准率不高。　针对上述问题，本文一种结合基于改进的Ｈａｒｒｉｓ检测提　

取图像特征和基于帧间差异提取运动特征的视频指纹产生方　法，通过视频指纹的相似性匹配进行视频检索。该方法对视　

频的亮度变换和尺寸变化有较强的鲁棒性，并且满足视频检　索的实时性要求。　

２总体设计方案　

本文方法的总体设计方案如图１所示。　

～一一一一一一一一视频指纹提晕卜一一一一一一一一一　

图１总体设计方案　

基金项目：湖南省教育厅优秀青年基金资助项目（０６Ｂ０９５）；湖南省　研究生科研创新基金资助项目（Ｘ２００８ｙｊｓｃｘ　ｌ　９）　作者简介：李泽洲（１９８４－－），男，硕士研究生，主研方向：多媒体处　

理；欧阳建权，副教授；张敏、刘炜，硕士研究生　收稿日期：２００９一Ｉ　１－０４　Ｅ—ｍａｉｌ：ｋｉｓｓｉｎｇｍａｎ　Ｉ　ｇｍａｉｌ．ｃｏｒｎ

　该方法的特点如下：　（１）基于ＤＣ图像序列（ＭＰＥＧ文件Ｉ帧的ＤＣ系数组成的　

序列）提取视频指纹，缩短了指纹提取的时间，提高了视频检　

索的效率。　

（２）通过对Ｈａｒｒｉｓ检测进行改进，更加准确地计算ＤＣ图　像的角点信息，提高了图像特征提取的准确性。　

（３）将改进的Ｈａｒｒｉｓ检测提取图像特征和基于帧间差异提　

取运动特征相结合产生视频指纹，使提取的视频指纹具有更　强的鲁棒性。　

３视频指纹提取　视频指纹提取的关键是视频特征提取是否准确，视频最　

重要的２个特征是图像特征和运动特征，视频的图像特征是　指视频帧的颜色特征、边缘特征、纹理特征和角点特征等。　

视频的运动特征是指相邻视频帧之间的差异，运动特征是视　频区别于图像的特有特征，体现了视频帧随时问的变换趋势。　

３．１图像特征提取　在提取图像特征的过程中，使用局部特征得到整个图像　特征，这样的特征提取对图像的几何变换亮度变换具有很强　

的鲁棒性，使用Ｈａｒｒｉｓ检测是个很好的选择。Ｈａｒｒｉｓ检测的　

基本思想是用自相关函数来确定当信号在２个方向都有较大　

变化时该信号所在的位置。但Ｈａｒｒｉｓ检测存在定位和稳定性　

方面的问题，对图像的旋转和缩放比较敏感。一般都是在应　用Ｈａｒｒｉｓ检测前对图像进行应用某种过滤器（如高斯过滤、双　

向过滤）进行平滑处理。对ＤＣ亮度图像，使用过滤器ｇ的卷　

积表达式为　（　）＝　（　）』ｅ，（　）ｇ（　，　）ｄ　

其中，　是像素位置；，（　）是ＤＣ图像　位置的亮度值；ｇ（　，Ｘ）　

表示加在，（ａ上的权重，由　进行规一化。权重取决于２个　

像素点之间的欧氏距离。在高斯过滤器中，这种相似性度量　

表示为　

…　一　，ｌ　ｇ（　，　）＝ｅｘｐ　，　

鉴于高斯过滤在平滑时的模糊效应，因此，该方法存在　定位和稳定性方面的问题，本文萤新给出一个相似性度量函　

数，考虑了像素问的距离，得出如下卷积公式：　

（　）＝ｋｇ（ｘ）ｌ＿亡：，（　）　（，（　），，（　））ｄ　

当　满足下式时可用来对Ｓ进行规一化：　

（　）ｆｅ　ｓ（Ｉ（Ｏ，，（　）ｄ　＝１　

可在计算　时确定其值。为保持在ＤＣ亮度图像的　

Ｈａｒｒｉｓ检测中出现的距离一致性，相似性度量　使用欧氏　

距离：　

（ｃｌ＿ｃ２）　（ｃｌ－ｃ０　：　（ｃｌ，Ｃ２）＝ｅｘｐ　０５　

得到平滑算子表达式：　

（　）＝　（　）』［二，（　）ｇ（　，　）　（，（　），　（　））ｄ　

规一化表达式为　

）ｆｅｇ（　，ｘ）ｓ（Ｘ（Ｏ，Ｉ（ｘ））ｄ４＝１　

在以上面的过滤器进行ＤＣ亮度图像的平滑处理后，可　

以进行兴趣点的Ｈａｒｒｉｓ检测：　Ｃ　＝　（　一ｋｒＰ（ｇ）　其中，Ｈ＝ｇｒａｄ（Ｉ）　ｇｒａｄ（Ｉ）　，ｋ值可由试验确定。　

根据下列规定，通过选择局部区域的最大Ｒ值，即可提　

取出兴趣点：　

－２４０－－－　（　）＞Ｒ（ｗ）　Ｗ∈ＮＢ（　）　ＮＢ（ｘ）指像素点　的领域。　

将ＤＣ亮度图像划分为ＭＸＮ的块，统计每块中的兴趣　

点的数目为Ｇ（ｍ，，？），其中，ｍ＝ｌ，２，…，　＝１，２，…，Ⅳ。　

最后得到整个视频片段的图像特征Ｙ（ｍ，”，ｐ），其中　

ｒ（ｍ，　，Ｐ）表示第尸个Ｉ帧ＤＣ亮度图像的Ｇ（ｍ，　）值。　

３．２运动特征提取　运动特征是视频区别于图像的一个重要特征，因此，运　

动特征提取对视频检索有非常重要的意义。由于相邻帧之间　

相同区域的差异能很好地反映视频的运动特征，因此文献【５】　

提出了用帧间差异来表示视频的运动特征：　

，　、　Ｉ１　ｉｆＱ（ｒ，ｃ，ｐ）≥０　（１）　ｂ　ｐ）＝０　ｉｆＱ（ｒ，ｃ，ｐ　（ｏ　

Ｑ（ｒ，ｃ，ｐ）＝（Ｆ（ｒ，ｃ＋１，ｐ）一Ｆ（ｒ，０，ｐ））一　（，（，，ｃ＋１，Ｐ一１）一Ｆ（ｒ，ｃ，Ｐ一】））　其中，Ｙ（ｒ　ｐ）表示第Ｐ帧（ｒ，ｃ）位置的像素值。　

该方法基于像素域提取运动特征，速度比较慢，并且对　

于在视频下边缘添加字幕（如电影的翻译字幕，电视台的公告　

等）的视频攻击鲁棒性不强。　鉴于该方法的缺点，本文基于ＤＣ亮度图像序列计算视　

频运动特征，提高了运动特征提取的效率。在视频下边缘添　加字幕严重影响视频运动特征的准确性，如果去掉视频下边　

缘，基本不会影响视频特征的提取，因此，去掉视频边缘提　

取视频运动特征能使特征提取更加准确，算法如下：　

（１）将第ｒ个Ｉ帧ＤＣ亮度图像分成Ｒ×Ｃ块，计算每一块　

亮度的和Ｆ（ｒ，Ｃ，　），其中，Ｆ１，２，…，Ｒ；ｃ＝ｌ，２，…，Ｃ。　

（２）去掉图像下边缘，即ｒ＝ｌ，２，…，Ｒ・２，根据式（１）计算运　

动特征串Ｂ（ｒ，ｃ，ｐ），其中，运动特征串的长度为　一２）Ｘ（Ｃ－１）。　

４相似匹配　提取视频指纹后，进行视频指纹的相似性匹配，分别计　

算视频片段Ｑ与视频库中视频Ｓ的图像特征相似度　（　，　）　

和运动特征相似度　（　，　），通过调和因子　（本实验中　

Ｗ－０．４２）得到视频片段的总的相似度，计算公式如下：　

ｓ（Ｑ，　）＝　×　（　，　）＋（１一ｗ）ｘ　（　，　）（０＜　＜１）　

其中，　（　，　）和　（　，Ｂｓ）通过计算城市距离得到。　

e商务文档

基于视频指纹的视频片段检索方法

相关文档推荐：