Computer Science and Application 计算机科学与应用, 2019, 9(8), 1584-1590Published Online August 2019 in Hans. /journal/csahttps:///10.12677/csa.2019.98178From Video to Semantic: VideoSemantic Analysis TechnologyBased on Knowledge GraphLiqiong Deng*, Jixiang Wu, Li ZhangAir Force Communication NCO Academy, Dalian LiaoningReceived: Aug. 6th, 2019; accepted: Aug. 19th, 2019; published: Aug. 26th, 2019AbstractVideo understanding has attracted much research attention especially since the recent availability of large-scale video benchmarks. In order to fill up the semantic gap between video features and understanding, this paper puts forward a video semantic analysis process based on knowledge graph, and adopts random walk to quantify semantic consistency between semantic labels. Then video semantic reasoning based-on knowledge graph is studied. The experimental results prove that knowledge graph can improve semantic understanding effectively. Finally, a constructed mul-tilevel video semantic model supports applications in video classifying, video labeling and video abstract, which has some guiding significance for information organization and knowledge man-agement of media semantic.KeywordsKnowledge Graph, Video, Classify, Semantic Analysis从视频到语义:基于知识图谱的视频语义分析技术邓莉琼*,吴吉祥,张丽空军通信士官学校,辽宁大连收稿日期:2019年8月6日;录用日期:2019年8月19日;发布日期:2019年8月26日*通讯作者。
邓莉琼 等摘要随着大规模视频的迅猛发展,视频理解受到了广泛的关注,为了填补视频特征与视频理解之间的语义鸿沟,本文提出了一种基于知识图谱的视频语义分析流程,采用了随机漫步方法对视频语义标签信息进行共生性概率的量化,研究了基于知识图谱的视频语义推理技术,相关的实验结果证明了知识图谱方法能有效提高视频语义分析的准确度,构建后的多层次视频语义模型支持在视频分类、视频标注及视频摘要等方面的应用,对媒体语义中的信息组织和知识管理有一定的指导意义。
关键词知识图谱,视频,分类,语义分析Copyright © 2019 by author(s) and Hans Publishers Inc. This work is licensed under the Creative Commons Attribution International License (CC BY). /licenses/by/4.0/1. 引言在移动互联网、大数据的时代背景下,互联网上的视频数据呈现爆发式增长,由于其内容具有易复制、易分发、难管理、难监控等特性,视频语义内容的有效管理成为了近年来的研究热点。
语义鸿沟的存在导致了计算机自动描述视频语义准确率低的问题,针对这一问题,本文提出了基于知识图谱的视频语义分析技术,重点关注视频语义的分析描述研究,知识图谱作为一种智能、高效的知识组织方式,能够帮助用户迅速、准确地查询到自己需要的信息,在增进信息的组织、管理和理解领域具有巨大的应用潜力,是对视频视觉语义理解的一个行之有效的途径。
本文将知识图谱技术用于构建视频的语义框架之中,将语义关系融入到特征提取中,有效的弥补语义鸿沟,为视频语义理解提供有效的支撑,该方向的研究具有较高的应用价值和现实意义,可广泛应用于视频检索、人机交互、智能安防等。
2. 相关工作视频理解在计算机视觉领域是研究热点问题,随着近年来一些大型视频数据集标准(Sports-1M/YFCC-100M/Youtube-8M)的公布以及深度学习和神经网络技术在视频特征提取的运用,视频理解技术得到了巨大的发展。
视频分类技术可以分为基于帧层次和基于视频层次两种。
在基于帧层次,典型的有DBoF [1] (deep bag-of-frames)方法,DBoF 借鉴了自然语言处理中的BOW 的思想,可以理解为将多个帧特征合称为一个视频特征,使用了deep 的思想,利用DNN 将帧特征映射到更高维的空间中并进行求和,然后再利用DNN 将高维特征映射回低维空间中进行分类。
LSTM [2] (Long Short-Term Memory)则是不断传入帧数据,用最后的LSTM 向量来作为视频的表示向量。
在基于视频层次,则是对一系列帧进行聚合得到特征向量,然后利用支持向量机等方法进行分类训练,其中MoE [3] (mixture of experts)在视频层次的特征提取和分类上表现尤其突出。
除了以上两种方法外,还有利用视频中文本识别的方法来进行分类[4]。
虽然视频特征提取的准确度有了较大的提高,但语义鸿沟的问题依然存在,面对海量的视频信息,人们期望以更加智能的方式组织图像资源。
知识图谱技术的出现使得信息可以在语义层面上进行整合,这种语义层次的关联技术能够为视频的语义分析研判提供强有力的支撑[5]。
例如图1(a)所示,仅仅分析该视频帧的像素特征,由于小孩手中的话筒被挡住了,因而很难得出“她在拿着话筒讲话”这样的结论,但若基于语义知识推理的话则不难得出该结论;图1(b)所示是一个动物园的例子,但仅仅从像素特征的邓莉琼 等分析很难认定是动物园,若基于“有老虎的人为建筑很有可能是动物园”这样的知识,则该视频将很有可能被正确划分为动物园。
因此知识图谱的构建能极大填补语义鸿沟的存在。
(a) (b)Figure 1. (a) Child with microphone, (b) Tiger in the zoo图1. (a) 小孩拿话筒,(b) 动物园老虎知识图谱即为用图对知识和知识间关系进行建模。
图节点表示知识的概念或实体,图边表示概念或实体间关系,众多节点和边构成的图即可对知识进行完整而清晰的描述。
它们力求通过将知识进行更加有序、有机的组织,对用户提供更加智能的访问接口,使用户可以更加快速、准确地访问自己需要的知识信息,并进行一定的知识挖掘和智能决策。
例如将图1所示的视频特征建立为图2的知识图谱,通过节点之间的关系能够更好的帮助理解视频的语义内容。
近年来已经有不少将知识图谱应用于视频等多媒体领域[6],例如文献[7]使用知识图谱来进行视频的分类,然而该方法的知识图谱是独立于特征模型的,缺少反馈回路,故而准确度不高等。
至于知识图谱的具体构建技术不在本文重点研究范围之内。
Figure 2. Example of knowledge graph relations for video semantics图2. 视频语义的知识图谱关系示例3. 基于知识图谱的视频语义分析流程针对视频的语义分析,本文所提出的基于知识图谱的视频语义分析流程图如图3所示。
如图3所示,输入一个待分析的视频后,首先从关键视频帧中提取出视频特征和音频特征;然后将这些帧向量特征输入到基于帧的建模或基于视频的建模中,生成最终的知识图谱向量,并输入到分类器中。
该分析框架有两个优势,首先,该框架可适用于目前所有的视频分类算法,包括深度学习和浅层学邓莉琼等习等模型,因而具有较高的灵活性;其次,在机器学习的框架中融入了知识图谱的构建,用语义内容之间的关联性填补了视频语义鸿沟,从而提高了准确度。
Figure 3. Video semantics analysis framework based on knowledge graph图3. 基于知识图谱的视频语义分析框架3.1. 视频帧序列特征提取本文通过对输入的视频帧序列提取视频的3类特征,包括空间特征(基于VGG16、AlexNet的fc7层特征)、视频特征(DT特征),然后对于可进行融合的特征进行前期融合,再通过一个特征选择器,该特征选择器的作用为选择提取到的及前期融合后得到的特征的组合作为DBoF、LSTM等描述模型的输入。
空间特征:本文使用预训练的模型提取视频帧序列图像的空间特征,因为近年来CNN在图像分类、目标检测、图像语义分割等领域取得了一系列突破性的研究成果[8],通过CNN提取的特征能够很好地表达图像。
因此本文选择在ImageNet分类任务数据集中取得很好数据的CNN模型VGG16和AlexNet,提取预处理好的视频帧序列中所有图片的fc7层的特征,并计算帧序列特征的均值,最终得到一个4096维特征向量来表示整个视频。
视频特征:与单独的图片描述问题不同的是,视频帧之间具有时间上的关联性,故而在对视频进行分析时很有必要进行视频的时间上的特征提取。
本文使用文献[9]方法提取DT特征,在提取DT特征时采用不重叠的长方形块覆盖图像上的区域,最后将拼接获取到的各区域的DT特征作为整个视频的特征。
由于视频特征的提取算法不是本文关注主要问题,因此不在文中详细阐述。
3.2. 视频语义的知识图谱表示当提取出视频的特征之后,本文利用知识图谱来进一步表示视频里的语义关系[10],知识图谱用()=表示,V表示是途中各节点的组合(即视频中的语义实体或类别标签),E表示这些节点之间的连,G V E线,即各语义标签之间的关系。