当前位置:
文档之家› 基于条件随机场的多标签图像分类
基于条件随机场的多标签图像分类
图2 条件随机场的图模型表示
条件随机场被定义为状态序列对观察序列的 条件概率
pθ s | o
1 Z o
exp F s , o, n
N n 1
(1)
N 这里 Z o exp F s ', o, n ,是整个序列集的 s' n1 归一化因子。F(s, o, n)是条件随机场在位置 n 的特 征函数和
分别是特征函数 f i 和 g j 的特征权重。 特征函数 f i 和 g j 定义如下
fi ( sn 1 , sn ) [ sn 1 l '][ sn l ]
(3) (4)
g j (o, sn ) [ x j o, n ][ sn l ]
图1
Bag-of-feature 过程示意图
224
辽宁工业大学学报(自然科学版)
第 32 卷
化,然后构建语义化的图像特征和图像标签间的关 系, 构建学习样本, 输入二阶条件随机场进行学习, 以捕获更多的标签语义关联。通过学习训练,条件 随机场可以整体识别图像的内容。本文进一步引入 组合学习,通过投票的方式优化组合条件随机场的 识别结果,优化多标签分类的性能。在标准数据集 MSRC 上进行了实验,证明了方法优于新近提出的 生成式模型 SMK.
收稿日期:2012-06-19 作者简介:徐振宇(1970-),男,山东蓬莱人,讲师。
于数据挖掘和图像处理。 Ghamrawi 等[2]借助条件随 机场提出了协同多标签分类器来捕获标签间的约 束关系,从而更好地区分相似的标签。He 等[3]利用 多范围条件随机场融合图像的局部、区域和全局特 征进行图像的标注。Shutton 等[4]使用条件随机场综 合考虑图像的底层信息,包括纹理、颜色、位置和 边缘。 Rabinovich 等[5-6]建立全局条件随机场融合图 像的语境信息进行物体识别。 条件随机场的整体概率分析特征使得可以整 体理解图像内容,捕获多标签间的语义关联。因此 本文提出了组合条件随机场来进行多标签图像分 类。图像的底层特征首先通过 Bag-of-feature[7]语义
构建 n 个二阶条件随机场,具有不同的初始参 数。n 个条件随机场经过训练后,对于一个测试图 片 xi,n 个条件随机场将得到 n 个不同的预测标签 集合 Li1,…,Lin. 显然, 每个集合中会有重复的标签。 然后合并 Li1,…,Lin 找到所有的可能的候选标签并去 掉其中的重复, 得到候选标签集合 Lp, 这个过程中, Li1,…,Lin 中的重复标签也被去掉,从而得到集合 Li1’,…,Lin’. 遍历 Li1’,每遇到一个标签,便增加 Lp 中那个标签的频次。然后遍历 Li2’,重复上述过程 至 Lin’也被遍历。 这样, 得到 Lp 中所有标签的频次。 这些标签中,大于设定的频次门限的标签被认为是 图像的最终类别标签。 假设|L|是所有|Li|, i=1,…n 的最大值,那么算法 的复杂性不会超过 n*|L|2 +|Lp|*|L|。考虑到|Lp|和|L| 近似相等,算法的复杂性量级为 O(|L|2)。可见,组 合学习过程的算法是高效的。
fi ( sn 1 , sn ) [ sn 1 sn l ' l ]
(5) (6) (8)
g j (o, sn ) [ x j (o, n)][ sn l ]
g h (o, sn , sn 1 ) [ xh (o, n)][ sn 1 ( sn 2 , sn 1 , sn ) [ sn 2 sn 1 l '' l '][ sn 1 sn l ' l ] (7)
这里 sn=l 表示状态 sn 对应着标签 l. xj(o, n)是一个逻 辑函数,表征观察序列当前位置的具体数据。如果 逻辑表达式 e 为真,则[e]的值是 1,否则为 0. 为了更好地捕获图像标签间的关联,使用二阶 条件随机场[8]来建模图像特征语义序列和图像标签 间的映射关系。二阶条件随机场与一阶类似,只是 它具有四类特征函数, 包括第一类边界函数(e1), 第 1 2 一类状态函数(s ),第二类边界函数(e )和第二类状 态函数(s2)。它们的形式如下
F s, o, n i fi sn 1 , sn j g j o, sn (2)
i j
其中 f i 和 g j 分别是边界特征函数和状态特征函 数。待确定的参数 i 和
j ( i , j θ 1 , 2 ,...; 1 , 2 ,... )
首先将图片分割为等大的小方格,并在方格之 间留有一定的间隔像素。这种采样方案已被证明是 有效的,既不必完全采样像素特征,又可以有效地 表示出图像的特征语义。提取小方格内像素的 Texton 特征,并正规化进行聚类,假设聚为 n 类。 然后为每个小方格做维度为 n 的统计直方图,统计 每个小方格内像素点聚类中心的分布情况,得到小 方格的 LTS 特征。 将全部维度为 n 的 LTS 特征向量 再次聚类,假设聚类中心数目为 m。这样,用每个
第 32 卷第 4 期 2012 年 8 月
辽宁工业大学学报(自然科学版)
Journal of Liaoning University of Technology(Natural Science Edition)
Vol.32, No.4 Aug. 2012
基于条件随机场的多标签图像分类
徐振宇,孙玉梅
Multi-label Image Classification Based on Conditional Random Field
XU Zhen-yu, SUN Yu-mei
(Yantai Nanshan University, Yantai 265713, China)
Key words: conditional random field; ensemble learning; Bag-of-feature; image classification Abstract: The apphcation of Bag-of-feature method was made to the image language approximate conversion into one dimensional series. And 2nd order conditional random fields were used to associate the low level image feature, high level knowledge and to understand the image content. Conditional random fields with different initial feature values were ensemble to acquire higher recognition precision, Simultaneously, classification performance was enhanced. Experiments on benchmark dataset demonstrate that our method effectively associates label semantics and gains better performance on multi-label image classification. 图像是多媒体的主要载体,随着图像数量越来 越多,信息难以有效地组织和利用,因而迫切需要 有效的图像自动分类方法。近年来,图像分类成为 模式识别和计算机视觉领域的热点研究问题。在多 标签的图像中,标签通常存在语义上的关联。传统 的多标签分类方法将多分类问题转化为多个二分 类问题,容易丢失标签间的关联。这种方法难以很 好地处理多标签图像的分类问题。 图像标签间的语义关联令人们想到了条件随 机场。 条件随机场[1]是由 John Lefferty 在 2001 年提 出的,最初用于序列数据的分割和标注。最近,条 件随机场已成为一种基本的机器学习方法,广泛用
第4期
徐振宇等:基于条件随机场的多标签图像分类
225
这时,特征和函数 F(s, o, n)为
F ( s, o, n) i fi ( sn 1 , sn ) j g j (o, sn )
i j
k
k
f k ( sn 2 , sn 1 , sn ) h g h (o, sn , sn 1 ) (9)
h
对于一幅图片,经过分割,将它划分为等大的 小方格。 通过 Bag-of-feature 过程, 每个小方格的特 征被一个视觉词代替。将整个图像转化为语义序 列,相邻的重复的视觉词被去掉,然后将每个视觉 词手工标注它所对应的物体标签,这样,每个图像 就产生了一个训练序列。通过训练图像,积累训练 样本,然后输入二阶条件随机场进行训练。 使用维特比算法完成二阶条件随机场的推理 过程。迭代变量 φn(sn-1,sn)的迭代形式如下
n 1 ( s j , si ) max s s { n ( sk , s j ) exp F ( s, o, n 1)}
k j
(10) 其中,sk, sj 和 si 分别是 3 个相邻位置 n-1, n 和 n+1 的状态。 1.3 组合学习 条件随机场的参数是由迭代训练得到的,因而 最终的参数结果受到参数初始值的影响。使用不同 初始值的条件随机场进行训练,然后采用通票的技 术来组合优化不同随机场的结果。具体地说,每个 条件随机场对测试图像的识别结果可能稍有不同, 累加所有条件随机场的预测结果,可以得到所有可 能标签的得票总数。这些标签中,得票总数超过设 定的门限值的标签被最终确定为图像的标签[8]。组 合学习的过程如算法 1. 输入:标签集合L1,…Ln,预测门限值t 输出:图像x的标签Lp 初始化:Lp=NULL 1. For i=1 to n For j=1 to sizeof(Li) If(Frequency(lj)>1) Remove the current lj from Li If(lj∉Lp) Add lj to Lp End End 2. For i=1 to sizeof(Lp) Calculate Frequency(li) by L1,…Ln If Frequency(li)<t Remove li from Lp End End