当前位置：文档之家› 基于标签相关性的K近邻多标签分类方法

基于标签相关性的K近邻多标签分类方法

４）
５）６）
ｅｑｕａｔｉｏｎ（２）；
ｅｎｄ
（２）得到：
ｆｏｒ＾∈｛１，２，…，ｍｌ
ｓｅｔ
ｄｏ
ｔｏ
ｃａｌｃｕｌａｔｅＦ“ａｎｄＦｉａｃｃｏｒｄｉｎｇｍａｎｄ
ｎ
ｅｑｕａｔｉｏｎ（５）；
Ｐ（叫）＝１羔，尸（砩）＝ｌ—Ｐ（硝）Ｅ）＝———土坚咀币ｒ
ｓ＋∑于ｑＰ（雩ｌ
（ｓ
７）
ａｃｃｏｒｄｉｎｇ
ｓｅｔ
ｅｑｕａｔｉｏｎ（８）
出它与其他标签的关系。设凡表示在未见示例并中Ⅳ。成立
２０）
ｙ．ｔｏ＋１，
２１）ｅｌｓｅ
２２１ｅｎｄ
ｙ。ｔｏ０；
时，珥成立的事件；Ｆ＃表示在未见示例茗中皿不成立时，ｑ成
立的事件。
ｆＰ（璺）＝Ｐ（钙Ｉ皿）＝尸（ｑ鼠）／Ｐ（只’
个近邻后统计近邻样本所包含的标签信息，通过最大化后验概率的方式预测未见示例的标签集合。已知未见示例戈和其对应的标签集Ｙ且有Ｙ∈Ｙ，令Ｙ，表示样本的标签集向量，对于每一个取自Ｙ的标签ｚ，在示例茗含有ｚ时，Ｙ，的分量Ｙ，（ｆ）＝１；否则取值为０。设Ⅳ（石）表示未见示例戈在训练集中的后个最近邻集，ｃ；（ｚ）表示近邻集合Ｎ（Ｘ）
输入训练数据集ｘ和标签集Ｙ，设置近邻数Ｋ，平滑参数ｓ，参数ｎ。输出未知示例ｘ对应的标签集合。１）ｆｏｒｉ∈｛１，２，…，ｑ｝ｄｏ２）
３）
将ｚ作为其相关标签的样本个数；硝为示例茗含有标签ｚ的事件，成为示例石不含有标签ｆ的事件；Ｅ：（０≤ｊ≤ｌＮ（ｔ）Ｉ）表
示在石的近邻中有Ｊ个示例含有标签ｆ的事件。基于贝叶斯概率公式的ＭＬ．ＫＮＮ方法的分类函数如式（１）所示：来自ｔｏｔｈｅＦｉａｎｄ
Ｒ；
（２）
８）
ｅｎｄ
９）ｅｎｄｌＯ）ｆｏｒｉＥ｛１，２，…，ｍ｝ｄｏ１１）ｉｄｅｎｔｉ母Ⅳ（ｘ）ｆｏｒ。；
后验概率Ｐ（耳Ｉ联）可以由式（３）～（４）得到：
（３）
１２）ｅｎｄ
Ｐ（彰ｆ珑）＝———』业业‰厂
（ｓ
Ｉ，ｖ（￡）Ｉ＋１）＋∑ｃ［ｐ］
１３）ｆｏｒＪ∈｛１，２，…，ｇ｝ｄｏ１４）ｆｏｒ＾∈｛１，２，…，ＪⅣ（ｘ）ｌ｝
ｃａｌｃｕｌａｔｅ
（４）
１５）
Ｐ（ｑｑ）ａｎｄＪｐ（ｑＩ、吩）ｆｏｒ
ＹｌａｃｃｏＩｄｉｎｇ
ｔｏ
ＩⅣ（ｔ）Ｉ＋１）＋∑ｃ’［ｐ］
ｅｑｕａｔｉｏｎ（３）；
１６１ｅｎｄ
２
本文算法
本文采用二阶处理方法，对每一个标签），。（１≤ｉ≤ｑ）求
１７）ｅｎｄ
１８）ｆｏｒＹ。∈ｔ
１９）
ｄｏ
ｔｏ
ｓｅｔ月ｘ，ｙｆ）ａｃｃｏＩｄｉｎｇｉｆ，（ｘ，ｙ。）＞１，ｓｅｔ
（‘，ｎ）一ｒｇ。一ｍａＨｘ（Ｐ（■））
ＭＬ．ＫＮＮ算法ＭＬ—ＫＮＮ算法是采用Ｋ近邻分类准则，在求出样本的Ｋ
碍成立的概率的最大值；在求得‘和‘的过程中充分考虑了
标签之间的相关性，ｍ和ｎ分别表示在对应最大值时的标签。利用求得的最大值和其预测值结合到式（２）中来预测标签Ｙ。的值，即有分类函数：灭聋，，，．）＝
Ａｎｈｕｉ２３０６０１，Ｃｈｉｎａ）
Ａｂｓｔｒａｃｔ：ＳｉｎｃｅｔｈｅＭｕｈｉ—ＬａｂｅｌＫＮｅａｒｅｓｔＮｅｉｇｈｂｏｒｆＭＬ．ＫＮＮｌｃｌａｓｓｉｆｉｃａｔｉｏｎａｌｇｏｒｉｔｈｍｉｇｎｏｒｅｓｔｈｅｃｏｒｒｅｌａｔｉｏｎｂｅｔｗｅｅｎｌａｂｅｌｓ，ａｍｕｌｔｉ—ｌａｂｅｌｃｌａｓｓｉｆｉｃａｔｉｏｎａｌｇｏｒｉｔｈｍｂｙｅｘｐｌｏｉｔｉｎｇｌａｂｅｌｃｏｒｒｅｌａｔｉｏｎｎａｍｅｄＣＭＬ．ＫＮＮＷａｓｐｒｏｐｏｓｅｄ．Ｆｉｒｓｔｌｙ。ｔｈｅ
ｃｏｎｄｉｔｉｏｎａｌｐｒｏｂａｂｉｌｉｔｙｂｅｔｗｅｅｎｅａｃｈｐａｉｒｏｆｌａｂｅｌｓｗａｓｃａｌｃｕｌａｔｅｄ．Ｓｅｃｏｎｄｌｙ．ｔｈｅｃｏｎｄｉｔｉｏｎａｌｐｒｏｂａｂｉｌｉｔｉｅｓｏｆｐｒｅｄｉｃｔｅｄｌａｂｅｌｓａｎｄｔｈｅｃｏｎｄｉｔｉｏｎａｌｐｒｏｂａｂｉｌｉｔｙｏｆｔｈｅｌａｂｅｌｔｏｂｅｐｒｅｄｉｃｔｅｄ
ＪｏｕｒｎａｌｏｆＣｏｍｐｕｔｅｒＡｐｐｌｉｃａｔｉｏｎｓ
ＩＳＳＮ１００ｌ，９０８１ＣＯＤＥＮＪＹＩＩＤＵ
２０１５—１０．１０
计算机应用，２０１５，３５（１０）：２７６１—２７６５文章编号：１００１—９０８１（２０１５）１０—２７６１－０５
ｈｔｔｐ：／／ｗｗｗ．ｊｏｃａ．ａｎ
ｄｏｉ：１０．１１７７２／ｊ．ｉｓｓｎ．１００１—９０８１．２０１５．１０．２７６１
收稿日期：２０１５—０６一０１：修回日期：２０１５－０６—２４。
Ｃｌａｓｓｉｆｉｅｒｓ）’９１方法是使用ｃｃ作为基分类器来进行集成的方
基金项目：安徽省科技攻关计划项目（１３０１ｈｉＭ２０２０）；高等学校博士学科点专项科研基刘政怡（１９７８一），女，安徽芜湖人，副教
金资助项目（２０１３３４０１１１０００９）；安徽大学研究生学术创新项目（Ｙｇｈｌ００１６６）。作者简介：檀何风（１９９０一），女，安徽安庆人，硕士研究生，主要研究方向：机器学习、人工智能；授，博士，主要研究方向：人工智能。
１≤ｉ≤ｍ，戈。Ｅ
ｘ，¨￡Ｙ｝。多标签学习算法的主
要任务是从训练集Ｄ中学习得到一个多标签分类函数厂：石× ｌ，一Ｒ，以戈，ｙ）可以看作示例ｚ具有类别标签），的最大可能性，从而根据此分类函数来判断未知示例所含有的标签集合。
１．２
其中：‘表示Ｐ（ＦＦ）中的最大值，即当Ｈｍ成立时，吗成立的
概率的最大值；ＦＪ表示Ｐ（Ｆｉ）中的最大值，即当玩不成立时，
竺！堡！［竺兰竺！ｇ！堡！±！！二竺！兰生兰里！竺塑兰！竺！］
Ｐ（、只）［ｎ×Ｐ（ｑＩ，哆）＋（１—８）×ｔ
Ｘ
ｐｒｅｃｔｉｏｎ（ｎ）］（８）
其中：ｐｒｅｃｔｉｏｎ（ｍ）和ｐｒｅｃｔｉｏｎ（ｎ）分别表示对应最大值的标签的预测值；ｏ值是为了调节标签相关性的影响度，从而得到使分类效果最好时的比例关系。算法ＣＭＬ－ＫＮＮ。
万方数据
２７６２
计算机应用
第３５卷
入标签相关性后的Ｋ近邻多标签分类算法，有效地解决了标签相关性的问题，并取得了良好的分类效果。１
１．１
相关介绍
多标签问题的定义设示例空间为ｘ＝｛ｘ。，戈：，…，ｘ。｝¨０】，标签空间为ｌ，＝
尸（钙、刖＝—型—瓦＿了一
（１，ｍ）＝ａｒｇ。；ｍ。；ａＪ－ｌｘ（Ｐ（Ｆｉ））
ｏｎ
Ｅｍｏｔｉｏｎｓｄａｔａｓｅｔｏｕｔｐｅｒｆｏｒｍｓｔｈｅｏｔｈｅｒｆｏｕｒａｌｇｏｒｉｔｈｍｓ，ｎａｍｅｌｙＭＬ—ＫＮＮ，ＡｄａｂｏｏｓｔＭＨ，ＲＡｋＥＬ，ＢＰＭＬＬ，ｗｈｉｌｅｏｎｌｙｔｗｏ
ｏｎ
ｅｖａｌｕａｔｉｏｎｍｅｔｒｉｃｖａｌｕｅｓａｒｅｌｏｗｅｒｔｈａｎｔｈｏｓｅｏｆＭＬ．ＫＮＮａｎｄＲＡｋＥＬｓｈｏｗｔｈａｔＣＭＬ．ＫＮＮｏｂｔａｉｎｓｂｅｔｔｅｒｃｌａｓｓｉｆｉｃａｔｉｏｎｒｅｓｕｌｔｓ．Ｋｅｙｗｏｒｄｓ：ｌａｂｅｌｃｌａｓｓｉｆｉｃａｔｉｏｎｃｏｒｒｅｌａｔｉｏｎ；Ｍｕｌｔｉ—ｌａｂｅｌＫＮｅａｒｅｓｔ
ｗｅｒｅ
ｒａｎｋｅｄ，ｔｈｅｎｔｈｅ
ｍａｘｉｍｕｍ
ｗａｓ
ｇｏｔ．Ｆｉｎａｌｌｙ，ａ
ｎｅｗ
ｃｌａｓｓｉｆｉｃａｔｉｏｎｍｏｄｅｌｂｙｃｏｍｂｉｎｉｎｇＭａｘｉｍｕｍＡＰｏｓｔｅｒｉｏｒｉ（ＭＡＰ）ａｎｄｔｈｅｐｒｏｄｕｃｔｏｆｔｈｅｍａｘｉｍｕｍａｎｄｉｔｓｃｏｒｒｅｓｐｏｎｄｉｎｇｌａｂｅｌｖａｌｕｅｗａｓｐｒｏｐｏｓｅｄａｎｄｔｈｅｎｅｗｌａｂｅｌｖａｌｕｅｗａｓｐｒｅｄｉｃｔｅｄ．ＴｈｅｅｘｐｅｒｉｍｅｎｔａｌｒｅｓｕｌｔｓｓｈｏｗｔｈａｔｔｈｅｐｅｒｆｏｒｍａｎｃｅｏｆＣＭＬ—ＫＮＮ
ＹｅａｓｔａｎｄＥｎｒｏｎｄａｔａｓｅｔｓ．Ｔｈｅｅｘｐｅｒｉｍｅｎｔａｌａｎａｌｙｓｅｓ
Ｎｅｉｇｈｂｏｒ（ＭＬ・ＫＮＮ）；ｃｏｎｄｉｔｉｏｎａｌｐｒｏｂａｂｉｌｉｔｙ；ｍｕｌｔｉ—ｌａｂｅｌ
０
引言
随着信息技术的发展与社会的进步，多标签分类‘１。已经
处理，但其忽略了标签问的相关性。“，很大程度上影响了分类的效果；ＬＰ（ＬａｂｅｌＰｏｗｅｒ—ｓｅｔ）”。方法考虑到标签间的相关性，将每个样本所含的标签全部融合成一个新的标签，但该方法可能导致训练样本不足以及训练复杂度过高等问题。算法转化法是通过对传统的分类方法进行改进，使其能适应于多标签数据的分类，该类方法没有对特定的单标签方法进行限定，主要有基于ＢＰ神经网络”ｊ、Ａｄａｂｏｏｓｔ‘６ｏ、Ｋ近邻方法０７ｊ等的多标签分类方法。集成方法主要是为了实现更好的分类效果，对常用的问题转换方法和算法转换方法进行结合来处理多标签分类问题。如：ＲＡｋＥＬ（Ｒａｎｄｏｍｋ－ｌａｂｅｌｓｅｔｓ）哺１方法是基于ＬＰ方法的集成算法，此方法在考虑标签间相关性的同时，避免了ＬＰ方法存在的缺点；ＥＣＣ（Ｅｎｓｅｍｂｌｅ法，降低了ＣＣ方法在分类准确率方面的负面影响。Ｋ近邻多标签分类方法是使用较多的多标签分类方法，但是在此方法中没有考虑标签间的相关性，从而使得其在分类时不能取得很好的性能。本文针对这类问题提出了一种加
Ｙｚ¨）’８。ｇ。毋踽—■雨扩２
…Ｐ（磁）Ｐ（Ｅ；Ｉ域）
ａｒｇ。ｍａ…ｘＰ（珑）Ｐ（Ｅ；Ｉ磁）
（１）对于每一个单独的类别ｙ，，其对应的先验概率可以由式
ｆｏｒＪ∈｛１，２，…，ｍ｝ｄｏ
ｃａｌｃｕｌａｔｅｌａｂｅｌｃｏｕｎｔｉｎｇ
Ｐ（只）ａｎｄＰ（１只）ａｃｃｏｒｄｉｎｇ
ｔｏ
即通过式（１）值的大小来确定示例石是否包含标签ｆ。
ｓ＋∑（ｙ。∈ｌ
ａｎｄ乃隹ｙｆ）

e商务文档

基于标签相关性的K近邻多标签分类方法

相关文档推荐：