当前位置：文档之家› 多标签分类学习

多标签分类学习

“一对多”的基于数据集分解的多标签方法策略示意
“一对多”的分解策略是指将具有k个标签的数据集分解成 k 个两类分类器，但是每一个分类器中都要包含所有的样本，第i号分类器要将拥有第i个标签的样本与其余样本分开，对于这 k 个两类分类器可以使用各种两类分类方法来解决，如使用k近邻算法(PT4-kNN ), C4.5算法(PT4C4.5 )、贝叶斯算法(PT4-NB ) ，以及基于支持向量机的 Binary-SVM算法和PT4-SMO算法。
目前，多标签分类问题的算法有两大类，一类是基于数据集分解的方法，另一类是基于单个优化问题的方法。基于数据集分解的多标签方法基于数据集分解的多标签方法简称为分解方法，它将一个多标签分类问题分解为多个单标签分类的子问题，然后使用一般的分类方法处理这些子问题，最后集成这些子问题的解得出总的多标签分类问题的解，因此分解方法一般分为分解、处理和集成三步。分解方法的目的是为了直接使用己经存在的单标签分类算法，它的特点就在于方便和快速。目前主要的分解策略有“一对一”和“一对多” 两种，但根据处理子问题的分类算法的不同又有多种具体形式的分类算法。
多标签分类问题的学习
多标签分类问题是分类问题中比较复杂的问题，不同于两类分类问题，它允许问题中存在多个类别 ( 或称为标签):不同于多类分类问题，它允许样本同时属于多个类别。由于多标签分类问题的复杂性，也就引起了人们研究的兴趣。现实中存在的多标签分类问题也很多。一个比较常见的问题是为电影分类问题，电影的类别有很多种，如: 科幻、喜剧、动作和剧情等等，一部电影也可以同时拥有多个类别，而且绝大多数电影都是拥有多个类别的。在许多现实应用中人们己经开始使用计算机来进行多标签分类问题的研究，在文本分类中，可以将一篇文章分类到多个话题中，如 : 社会、科学、体育和娱乐等 ; 在风景图像分类中，一幅图像可以拥有多个主题，如: 树林、海滩、山峰和草原等。
“一对一”的基于数据集分解的多标签方法策略示意
Байду номын сангаас
“一对一”的分解策略，是指对于具有 k 个标签的数据集，将任意两个标签配对构造一个分类器，只对含有这两个标签的样本进行分类，这样的两两配对共有 k （ k-l)/2 种可能的情况，将会产生 k （ k-l)/2个分类器，因此通过 “一对一”的分解策略可以将一个多标签分类问题分解成 k(k-1)/2个单标签分类问题，对于这些单标签分类问题的处理则可以使用各种分类方法，如 k 近邻算法、贝叶斯算法、支持向量机算法等。需要注意的是根据多标签分类问题的特点这些子问题的样本可能存在三种类型，即:只拥有第一个标签的样本，只拥有第二个标签的样本和同时拥有第一和第二标签的样本。要处理这样的子问题最简单的方法是忽略掉同时拥有第一和第二标签的样本，如Model-i算法；另一种方法是用两个两类分类器来处理这样的子问题，如多标签成对比较算法；还有一种方法是直接创造一种三类的分类器来处理这样的子问题，如平行支持向量机算法。
基于单个优化问题的多标签方法在基于单个优化问题的方法中，要求只建立一个最优化问题来处理所有的样本，并且这些样本拥有多个标签，因此建立和计算这样的最优化问题是整个基于单个优化问题的方法中最重要的问题，而根据建立的最优化问题的不同，基于单个优化问题方法也有多种形式。
例如： Boos Texter 算法、 Rank-SVM 算法、最大化间隔标签法、多标签最大化熵算法、多标签k 近邻算法等等。总体而言，基于单个优化问题方法的优点是没有改变数据的结构，没有破坏类与类之间的联系，但它的主要缺点是往往最优化问题过于巨大需要大量的计算时间。
Thank you !

e商务文档

多标签分类学习

相关文档推荐：