当前位置:文档之家› 情感语义图像检索技术研究

情感语义图像检索技术研究

2006.18计算机工程与应用

1引言

情感计算是一门新颖的而且富有挑战性的研究课题[1],是

涉及到哲学、心理学、美学、人类学等的交叉学科。目前在情感计算理论和应用方面的研究已经浮出水面,而将情感计算运用在图像检索的初步研究中,国内外已发表过一些论文,主要集中在人的面部表情识别、机器人的情感行为和可穿戴式计算应用等研究领域。基于内容图像检索的研究正进行的如火如荼[4]。虽然这两方面的研究起步都比较晚,特别是情感计算,但也有了一些可喜的成果。人类的情感从心理学角度上主要指人的心理反应。西方有的学者把情感分为基本的六种:羡慕、爱、恨、欲望、愉快和悲哀。而国内一直流行着“七情六欲”之说,《礼记-礼运》说:“喜、怒、哀、惧、爱、恶、欲七者弗学而能。”即所谓的七情。有研究显示,不同图像可以唤起人类不同的情感。对图像进行情感分类有助于建立和谐人机环境[7]和情感计算领域的研究。在现实世界中的情感活动离不开周围的环境,而现实中的环境可以被认为是由一幅幅的图像组成的,所以对图像的情感研究是非常必要的。而且在实际应用中图像的情感研究也有着相当广阔的前景,可以运用于艺术、装潢、机器人和游戏开发等领域。本文对图像进行情感分类,实现图像的情感语义检索。用户可以使用多范例图来进行检索情感相似图或使用文本描述的方式来进行检索。为了增加特征到语义的映射和图像匹配的效率,利用多范例图进行检索是一种行之有效的方法。在多范例图中,我们把要查询的相似图划分到相关组中,需要过滤掉的图像则放到相反组。本文分为三部分,首先介绍了情感语义检索系统总体结构,主要分为特征向量的提取、表示,低阶可视化特征向高阶语义特征的映射,以及情感空间和用户接口的介绍;其次主要分析图像的情感语义,详细阐述情感语义模型的结构和功能;最后对由2500幅数字图像组成的数据集仿真实验,分析了实验结果,并且提出今后的研究方向。2系统总体结构设计图像检索系统主要研究的内容是基于数字图像处理基础上的视觉特征提取、多维索引以及检索系统设计等[7],本文也不

例外,检索系统的总体结构如图1,主要分为三个部分,其中关键技术为图像的特征抽取、表示,图像低阶可视化特征向高阶语义特征的映射阶段以及情感模型的建立。下面作详细的介绍。

作者简介:李海芳(1964-),女,副教授,硕士生导师,在读博士,研究方向为:信号与信息处理,数据挖掘。焦丽鹏(1981-),男,硕士研究生,主要研究方向为图像检索、智能信息处理。

情感语义图像检索技术研究李海芳焦丽鹏陈俊杰王莉贺静(太原理工大学计算机与软件学院,太原030024)E-mail:sxlhf123@163.com

摘要图像中所蕴涵的丰富语义仅用若干低级物理特征是不能进行完整描述的,而且在语义映射时也会有信息丢失,因而产成“语义鸿沟”是在所难免的。将多特征融合,建立情感语义模型,分析情感的概念解析功能对提高智能信息检索的精度和效率是非常必要的。论文讨论了图像的颜色、纹理等特征的提取与表示,低阶图像可视化特征到高阶图像语义特征的映射过程,图像的情感语义分类,建立了情感语义模型,实现对基于情感语义图像的检索。对由2500幅数字图像组成的数据集进行了实验,并对实验结果进行分析,部分结果是令人满意的,而且提高了基于内容图像检索的精度。

关键词语义鸿沟基于内容的图像检索情感计算情感语义特征提取文章编号1002-8331-(2006)18-0082-04文献标识码A中图分类号TP391

ResearchofAffectiveSemanticsRetrievalBasedonContentLiHaifangJiaoLipengChenJunjieWangLiHeJing(CollegeofComputerandSoftware,TaiyuanUniversityofTechnology,Taiyuan030024)Abstract:Theabundantsemanticcontainedintheimagescannotbeendescribedcompletelyonlyusingsomelow-levelphysicalfeatures,andsomeinformationwillbelostinthesemanticmapping,soitisunavoidabletoproducethe“semanticgap”.Itisnecessarytoimprovetheprecisionandefficiencyoftheintellectiveinformationretrievalbysyncretizingmulti-features,establishingtheaffectivesemanticmodelandanalyzingtheidea-analysisfunctionofemotion.Featuresextractingandexpressingofimage’scolor,texture,etc.,mappingprocessfromthelow-levelimagevisualfeaturestothehigh-levelimagesemanticfeatures,andtheemotionsemanticclassificationoftheimagesarediscussed,

emotionsemanticmodelisestablished,theretrievingbasedonaffectivesemanticimagesisachievedinthispaper.Thedatasetcomposedof2500digitalimagesisexperimentedwith,andtheexperimentresultshavebeenanalyzed,someofwhicharesatisfied,andtheprecisionbasedoncontentimageretrievinghasbeenimproved.

Keywords:semanticgap,CBIR,affectivecomputing,affectivesemantics,featureabstraction

82计算机工程与应用2006.18

特征比较特征提取情感分类器

情感空间标记库

图像库

映射

特征向量相关反馈查询引擎图1情感语义检索系统的总体结构

1SaturationValue

Hue

图2颜色空间锥形模型图

高阶层中阶层低阶层图3特征映射机制

2.1基于内容的图像检索

基于文本的图像检索技术已经不能满足今后的需求[4],一是

因为手工注释对于海量图像数据显得力不从心,二是由于图像本身所含丰富的语义信息单靠手工注释是难以胜任的。目前的图像检索系统基本上是以基于内容的图像可视化特征提取为根基,并在此基础上进行各种信息检索,基于内容的图像检索技术始于90年代早期[4]。它直接利用了图像本身的特征,且避免了人工注释的主观性、片面性,简化了对图像注释这一繁琐庞大的工程[7]。基于内容的图像检索技术主要是提取图像的可视化特征比较其相似性,一般通过色彩、纹理、形状等特征进行索引。就图像特征的作用域来说,CBIR(content-basedimageretrieval)系统可划分为:基于全局特征的检索和基于区域特征及其空间关系的检索[16]。由于本文基于情感语义的检索的复杂性和难实现

性,既要用全局特征又要用到区域特征,本文运用全局特征和区域特征相结合的方法来对图像进行匹配(参见后面对特征的树状表示形式),即可实现这种效果。2.2特征向量

基于内容的图像检索的工作主要来源于对图像的可视化特征的提取和表示。在实际的应用中,并不是所有的特征都是我们所关心的,Itten[8]指出艺术图像中颜色的使用与表达的语

义之间存在一定的关系,同时他还发现不同的颜色组合导致诸如和谐、不和谐、平静和兴奋等效果;比如橙色代表暖色,当前很多家庭把橙色作为主色调来装潢自己的家庭,这样会使得人们有被橙色的阳光所环抱的感觉。本文主要使用颜色、纹理、边缘作为图像的特征进行抽取。在颜色特征提取中我们使用HSV(Hue,Saturation,Value)

色彩空间,如图2。它不仅能贴近人对图像的色彩理解[12]

,而且

在匹配颜色和判断一种颜色是否相似于另一种颜色时,HSV颜色空间被视为明智的选择[9]。对每个色调(H),饱和度(S),强度(V)计算其一阶矩(如公式(1))、二阶矩(公式(2))和三阶矩(公式(3))来表示颜色特征,这样一共可以提取九个颜色特征:

Ei=1NNj=1!Pij(1)

!i=1NNj=1!(Pij-Ei)2"#12(2

Si=1NNj=1!(Pij-Ei)3"$13(3)

式中i∈{H,S,V};N为像素点数,Pij表示在j点的i值,如果i=S即为其饱和度数值。对于纹理特征我们使用基于小波变换的纹理特征[10,11]。纹理特征使用与ImageGrouper[6]中一样的标准差来表示。这些特征将从图像中提取并在元数据库中建立索引。一幅图像中可提取出10个纹理特征。边缘特征使用ImageGrouper中的注水算

法,共提取18个特征。2.3低阶可视化特征到高阶语义特征的映射

缩小低阶特征(low-levelfeatures)到语义特征映射时产生的“语义鸿沟”(semanticgap)[4],也就是尽量减少映射过程中的

信息流失和获得较多的用户信息。为了减少它们之间的差距,研究者需对其进行彻底的分析,但目前研究表明尚无完全解决之法。把机器学习运用到系统中是比较常见的方法,例如一些文献中使用“相关反馈”、“短期学习”、“长期学习”[13]。本文提出

建立双层映射机制并利用“相关反馈”技术,其中映射机制使用单路串联模式,从低层到中间层的映射,和中间层到高层的映射。如图3。

图像给人的情感感觉不仅仅取决于颜色纹理等低阶可视化特征,一些高阶图像中的对象也可给人以不同的情感反应,比如图片中的小狗可能会使人有一种温馨的感觉,鲜花可能会使人心情舒畅,而且同样的一种对象可能产生不同的情感效果,比如水是生命之源,当人们看到水时表现出很大的亲和力,

但当看到洪水时会产生恐惧感。这是跟一般图像语义检索研究有着不同的地方,所以在情感语义分类时还得注意高阶语义特

征和低阶可视化特征之间的结合,但实现起来比较困难。2.4情感空间(Emotionalspace)

对于情感的分类众说纷纭,中国古代就有七情六欲之说,国外心理学家对情感类型也有很多不同的定义。基本从三方面讨论:一是把情感反应归结为一个独立的过程;二是情绪被认为是刺激和反应之间的中间变量;三是用直接行为主义理论来解释。

情感有很大的主观性,不同的图像或图像中的不同颜色、纹理、轮廓等会给人不同的感受,而不同的人对同一幅图像也

相关主题