当前位置:文档之家› 基于标签相关性的K近邻多标签分类方法

基于标签相关性的K近邻多标签分类方法

4)
5) 6)
equation(2);
end
(2)得到:
for^∈{1,2,…,ml
set
do
to
calculate F“and Fi according m and

equation(5);
P(叫)=1羔,尸(砩)=l—P(硝) E)=———土坚咀币r
s+∑于q P(雩l
(s
7)
according
set
equation(8)
出它与其他标签的关系。设凡表示在未见示例并中Ⅳ。成立
20)
y.to+1,
21)else
221 end
y。to 0;
时,珥成立的事件;F#表示在未见示例茗中皿不成立时,q成
立的事件。
fP(璺)=P(钙I皿)=尸(q鼠)/P(只’
个近邻后统计近邻样本所包含的标签信息,通过最大化后验 概率的方式预测未见示例的标签集合。 已知未见示例戈和其对应的标签集Y且有Y∈Y,令Y,表 示样本的标签集向量,对于每一个取自Y的标签z,在示例茗含 有z时,Y,的分量Y,(f)=1;否则取值为0。设Ⅳ(石)表示未见 示例戈在训练集中的后个最近邻集,c;(z)表示近邻集合N(X)
输入训练数据集x和标签集Y,设置近邻数K,平滑参数s,参 数n。 输出未知示例x对应的标签集合。 1)fori∈{1,2,…,q}do 2)
3)
将z作为其相关标签的样本个数;硝为示例茗含有标签z的事 件,成为示例石不含有标签f的事件;E:(0≤j≤l N(t)I)表
示在石的近邻中有J个示例含有标签f的事件。 基于贝叶斯概率公式的ML.KNN方法的分类函数如式 (1)所示:来自tothe Fi and
R;
(2)
8)
end
9)end lO)foriE{1,2,…,m}do 11)identi母Ⅳ(x)for。;
后验概率P(耳I联)可以由式(3)~(4)得到:
(3)
12)end
P(彰f珑)=———』业业‰厂
(s
I,v(£)I+1)+∑c[p]
13)forJ∈{1,2,…,g}do 14) for^∈{1,2,…,JⅣ(x)l}
calculate
(4)
15)
P(q q)and Jp(q I、吩)for
Yl accoIding
to
IⅣ(t)I+1)+∑c’[p]
equation(3);
161 end

本文算法
本文采用二阶处理方法,对每一个标签),。(1≤i≤q)求
17)end
18)for Y。∈t
19)
do
to
set月x,yf)accoIding if,(x,y。)>1,set
(‘,n)一rg。一maHx(P(■))
ML.KNN算法 ML—KNN算法是采用K近邻分类准则,在求出样本的K
碍成立的概率的最大值;在求得‘和‘的过程中充分考虑了
标签之间的相关性,m和n分别表示在对应最大值时的标签。 利用求得的最大值和其预测值结合到式(2)中来预测标签Y。 的值,即有分类函数: 灭聋,,,.)=
Anhui 230601,China)
Abstract:Since the Muhi—Label K Nearest Neighbor f ML.KNNl classification algorithm ignores the correlation between labels,a multi—label classification algorithm by exploiting label correlation named CML.KNN Was proposed.Firstly。the
conditional probability between each pair of labels was calculated.Secondly.the conditional probabilities of predicted labels and the conditional probability of the label to be predicted
Journal of Computer Applications
ISSN 100l,9081 CODEN JYIIDU
2015—10.10
计算机应用,2015,35(10):2761—2765 文章编号:1001—9081(2015)10—2761-05
http://www.joca.an
doi:10.11772/j.issn.1001—9081.2015.10.2761
收稿日期:2015—06一01:修回日期:2015-06—24。
Classifiers)’91方法是使用cc作为基分类器来进行集成的方
基金项目:安徽省科技攻关计划项目(1301hiM2020);高等学校博士学科点专项科研基 刘政怡(1978一),女,安徽芜湖人,副教
金资助项目(20133401110009);安徽大学研究生学术创新项目(Yghl00166)。 作者简介:檀何风(1990一),女,安徽安庆人,硕士研究生,主要研究方向:机器学习、人工智能; 授,博士,主要研究方向:人工智能。
1≤i≤m,戈。E
x,¨£Y}。多标签学习算法的主
要任务是从训练集D中学习得到一个多标签分类函数厂:石× l,一R,以戈,y)可以看作示例z具有类别标签),的最大可能 性,从而根据此分类函数来判断未知示例所含有的标签集合。
1.2
其中:‘表示P(FF)中的最大值,即当Hm成立时,吗成立的
概率的最大值;FJ表示P(Fi)中的最大值,即当玩不成立时,
竺!堡![竺兰竺!g!堡!±!!二竺!兰生兰里!竺塑兰!竺!]
P(、只)[n×P(q I,哆)+(1—8)×t

prection(n)] (8)
其中:prection(m)和prection(n)分别表示对应最大值的标 签的预测值;o值是为了调节标签相关性的影响度,从而得到 使分类效果最好时的比例关系。 算法CML-KNN。
万方数据
2762
计算机应用
第35卷
入标签相关性后的K近邻多标签分类算法,有效地解决了标 签相关性的问题,并取得了良好的分类效果。 1
1.1
相关介绍
多标签问题的定义 设示例空间为x={x。,戈:,…,x。}¨0】,标签空间为l,=
尸(钙、刖=—型—瓦_了一
(1,m)=arg。;m。;aJ-lx(P(Fi))
on
Emotions dataset outperforms the other four algorithms,namely ML—KNN,AdaboostMH,RAkEL,BPMLL,while only two
on
evaluation metric values are lower than those of ML.KNN and RAkEL show that CML.KNN obtains better classification results. Key words:label classification correlation;Multi—label K Nearest
were
ranked,then the
maximum
was
got.Finally,a
new
classification model by combining Maximum A Posteriori(MAP)and the product of the maximum and its corresponding label value was proposed and the new label value was predicted.The experimental results show that the performance of CML—KNN
Yeast and Enron datasets.The experimental analyses
Neighbor(ML・KNN);conditional probability;multi—label

引言
随着信息技术的发展与社会的进步,多标签分类‘1。已经
处理,但其忽略了标签问的相关性。“,很大程度上影响了分 类的效果;LP(Label Power—set)”。方法考虑到标签间的相关 性,将每个样本所含的标签全部融合成一个新的标签,但该方 法可能导致训练样本不足以及训练复杂度过高等问题。算法 转化法是通过对传统的分类方法进行改进,使其能适应于多 标签数据的分类,该类方法没有对特定的单标签方法进行限 定,主要有基于BP神经网络”j、Adaboost‘6 o、K近邻方法07j等 的多标签分类方法。集成方法主要是为了实现更好的分类效 果,对常用的问题转换方法和算法转换方法进行结合来处理 多标签分类问题。如:RAkEL(Random k-labelsets)哺1方法是 基于LP方法的集成算法,此方法在考虑标签间相关性的同 时,避免了LP方法存在的缺点;ECC(Ensemble 法,降低了CC方法在分类准确率方面的负面影响。 K近邻多标签分类方法是使用较多的多标签分类方法, 但是在此方法中没有考虑标签间的相关性,从而使得其在分 类时不能取得很好的性能。本文针对这类问题提出了一种加
Yz¨)’8。g。毋踽—■雨扩2
…P(磁)P(E;I域)
arg。ma…x P(珑)P(E;I磁)
(1) 对于每一个单独的类别y,,其对应的先验概率可以由式
forJ∈{1,2,…,m}do
calculate label counting
P(只)and P(1只)according
to
即通过式(1)值的大小来确定示例石是否包含标签f。
s+∑(y。∈l
and乃隹yf)
相关主题