当前位置：文档之家› 图像分类算法与应用研究

图像分类算法与应用研究

多示例学习

多示例训练集由包(bag)组成，每个包里面包含多个实例(instance)。如果一个包为正例，则包中至少有一个实例为正例；如果一个包为反例，则包中所有的实例均为反例。方法：
Maron─Diverse
Density Andrew ─ Mi-SVM以及MI-SVM Chen ─ DD-SVM以及MILES Qi ─DD-SVM变种周志华─MIML框架(Multi-Instance Multi-Label)
min ( , g (h ))] ek hk (t ) g (t ) max[min(min(hk (t )), g (E ))] max[ [0,1]
T E T xE
ek max min hk ti , g Ai
g A1 g t1
语义图像表示(局部)
Vogel和Schiele提出
词包模型
感兴趣区域检测器

描述子

Dense Harris-Laplace Hessian-Laplace Harris Hessian Edge-Laplace Haar-Hessian DoG( Difference of Gaussian)

Patch SIFT gradient location and orientation histogram (GLOH) shape context steerable filters moment invariants SURF
State of Art方法
词汇表的构造(K-Means,GMM,VQ,pLSA) 图像相似性的度量(Distance Metric Learning, Kernel Methods(PMK,EMD) ) 多特征融合(Random Forest/Ferns,SVM) 图像空间信息的利用(Spatial Pyramid, ABS-pLSA,TSI-pLSA,LDA(Fei-Fei) ) 感兴趣区域选取(Anna Bosch)
Image categories
不同训练样本下的精度对照
Average Classification Accuracy
0.85
Our Method DD-SVM
0.9
Average Classification Accuracy
0.8
0.7
0.80
0.6
0.5
Our Method CH-RGB CH-HSV CH-Lab EH CCV PWT

Szummer和Picard 分类“室内”/“室外” 颜色和纹理特征 K-NN 投票 Serrano SVM分类 SVM输出结果相加 Paek和Chang 图像分割使用贝叶斯网络
语义图像表示(全局)
Spatial Envelope ---Oliva和Torralba提出
Naturalness Openness Roughness Expansion Ruggedness
已有工作基础
支持向量机(SVM)进行图像分类融合多分类器的图像分类

SVM进行图像分类
min
l 1 T J w, b, w w C j 2 j 1
s.t. y j w T x j b 1 j

j 0, j
: X H
x x
“山川”被误分为“海滩”
融合方法与子分类器的精度对照
RGB HSV Lab Edge CCV PWT Fusion
Average precision of each image class
1.0
0.8
0.6
0.4
0.2
0.0 Cat 0 Cat 1 Cat 2 Cat 3 Cat 4 Cat 5 Cat 6 Cat 7 Cat 8 Cat 9
k x, x'
1 , 1 x, x'
x 1, x' 1
Svetlana Lazebnik-Spatial Pyramid Matching Kernel(空间金字塔匹配核)
Spatial Pyramid RBF Gaussian Kernel
2 D l l I H , H exp H X i H y i , 0 i=1 l X l Y
k x, x' exp x x' , 0
x x' k x, x' exp , 0
多项式核（polynomial）:
k x, x' x, x' c , d N , c 0
d
无限多项式核（infinite polynomials）：
预期达到目标
建立通用的图像分类系统，达到如下指标： Caltech101 80% Caltech256 45% Corel十类90% 建立网络图像挖掘系统，该系统的准确率比现有的搜索引擎高50%以上

为完成课题已具备和所需的条件
图像库：Caltech 101, Caltech 256, Corel 十类图像库, MIT CBCL, PASCAL等图像库 LabelME 等大规模图像资源库常用的图像特征提取算法：颜色直方图，颜色一致向量，边缘直方图，SIFT特征等开源机器学习工具包libsvm等
图像分类算法与应用研究
报告人：张德园导师：王晓龙教授
目录
研究背景相关研究工作已有工作基础论文主要研究内容

课题来源

本课题来源于国家八六三计划目标导向类课题“基于NLP的智能搜索引擎”(项目编号：2006AA01Z197)。
实际意义
按照语义内容进行图像管理/图像浏览减少人工标注时间(Flickr, Pica结果
Corel图像库中的10类 Libsvm，线性核 C=2-5,2-4,……,210 5折交叉验证
特征名 CH-RGB CH-HSV CH-Lab CCV
特征长度 64 96 100 128
描述 4bins R×4bins G×4bins B 32bins H+32bins S+ 32bins V 32bins L+32bins a+36bins b 4bins R×4bins G×4bins B×2
Spatial Pyramid χ2 Kernel
2 l l D H i H i X y l l , 0 I H X , HY exp l l i=1 H X i H y i
Evaluation

Internet图像挖掘研究

现有图像挖掘方法的不足：
训练数据存在噪声不能很好的突破搜索引擎返回结果数量的限制

解决方案：
查询扩展多个搜索引擎结果集成文本分类技术与图像分类技术结合少量标记样本半监督学习
论文进度安排

2006年9月-2007年7月：阅读相关文献，分析图像分类在国内外的研究现状 2007年9月-2008年6月：进行组合多分类器方面的研究，发表一篇以上学术论文 2008年8月-2008年12月：进行最优空间信息进行图像分类的研究，发表一篇以上学术论文 2009年1月-2009年5月：进行最优词汇表构造的研究，发表一篇以上学术论文 2009年6月-2009年12月：进行网络分类挖掘的研究，发表一篇学术论文 2010年1月-2010年4月：总结博士阶段所做的工作，撰写博士论文 2010年5月-2010年7月：准备答辩

组合多分类器框架的研究
组合分类器框架选择分类器权重计算分类器选择

最优词汇表构造的研究
Filter方法预计方法：

生成一个较大的词汇表(5000-10000)
根据每个词汇的对类别的判别能力控制聚类
最优空间信息进行图像分类的研究
Kernel Methods Gaussian, χ2 ,Histogram Intersection 根据训练图像学习出金字塔每个层次的最优权重
Corel图像库中的10类
Libsvm，5折交叉验证 C= 2-3, 2-1, ……, 215 γ=2-15,2-13,……,25
Spatial Pyramid RBF Gaussian Kernel
Spatial Pyramid χ2 Kernel
以上两种核的结果都有所提高 1+4的形式最好
Edge Histogram
PWT
80
27
结果比较
平均精度我的方法 DD-SVM Hist-SVM 84.66% 81.5% 66.7%(Chen) 79.8%(Qi)
CCV
MILES Qi DD-SVM(Qi)
80.52%
82.6% 88.8% 82%
经常被误分的图片
“海滩”被误分为“山川”
g Ai g i g Ai 1 g i g Ai 1
1 i n
模糊积分

训练
传统的Reward-Punishment算法
设置初始gi 对训练样本的分类进行Reward和Punishment 对初始gi依赖，陷入局部最优解

改进
设置多组初始gi 本文选取gi=t/N

遇到的困难以及解决办法
图像处理以及计算机视觉知识的缺乏机器学习理论功底不足多搜索引擎的网络爬虫

已发表的论文

De-Yuan Zhang, Bing-Quan Liu, Xiao-Long Wang, Li-Juan Wang. Image Classification by Combining Multiple SVMS. International Conference on Machine Learning and Cybernetics(ICMLC)

e商务文档

图像分类算法与应用研究

相关文档推荐：