多标签分类学习
“一对多”的基于数据集分解的多标签方法策略示意
“一对多”的分解策略是指将具有k个标签的数据集分 解成 k 个两类分类器,但是每一个分类器中都要包含所有 的样本,第i号分类器要将拥有第i个标签的样本与其余样 本分开,对于这 k 个两类分类器可以使用各种两类分类方 法来解决,如使用k近邻算法(PT4-kNN ), C4.5算法(PT4C4.5 )、贝叶斯算法(PT4-NB ) ,以及基于支持向量机的 Binary-SVM算法和PT4-SMO算法。
目前,多标签分类问题的算法有两大类,一类是基于 数据集分解的方法,另一类是基于单个优化问题的方法。 基于数据集分解的多标签方法 基于数据集分解的多标签方法简称为分解方法,它将 一个多标签分类问题分解为多个单标签分类的子问题,然 后使用一般的分类方法处理这些子问题,最后集成这些子 问题的解得出总的多标签分类问题的解,因此分解方法一 般分为分解、处理和集成三步。分解方法的目的是为了直 接使用己经存在的单标签分类算法,它的特点就在于方便 和快速。目前主要的分解策略有“一对一”和“一对多” 两种,但根据处理子问题的分类算法的不同又有多种具体 形式的分类算法。
多标签分类问题的学习
多标签分类问题是分类问题中比较复杂的问题,不同 于两类分类问题,它允许问题中存在多个类别 ( 或称为标 签):不同于多类分类问题,它允许样本同时属于多个类别。 由于多标签分类问题的复杂性,也就引起了人们研究的兴 趣。现实中存在的多标签分类问题也很多。一个比较常见 的问题是为电影分类问题,电影的类别有很多种,如: 科 幻、喜剧、动作和剧情等等,一部电影也可以同时拥有多 个类别,而且绝大多数电影都是拥有多个类别的。在许多 现实应用中人们己经开始使用计算机来进行多标签分类问 题的研究,在文本分类中,可以将一篇文章分类到多个话 题中,如 : 社会、科学、体育和娱乐等 ; 在风景图像分类 中,一幅图像可以拥有多个主题,如: 树林、海滩、山峰 和草原等。
“一对一”的基于数据集分解的多标签方法策略示意
Байду номын сангаас
“一对一”的分解策略,是指对于具有 k 个标签的数据 集,将任意两个标签配对构造一个分类器,只对含有这两 个标签的样本进行分类,这样的两两配对共有 k ( k-l)/2 种可能的情况,将会产生 k ( k-l)/2个分类器,因此通过 “一对一”的分解策略可以将一个多标签分类问题分解成 k(k-1)/2个单标签分类问题,对于这些单标签分类问题的 处理则可以使用各种分类方法,如 k 近邻算法、贝叶斯算 法、支持向量机算法等。 需要注意的是根据多标签分类问题的特点这些子问题 的样本可能存在三种类型,即:只拥有第一个标签的样本, 只拥有第二个标签的样本和同时拥有第一和第二标签的样 本。要处理这样的子问题最简单的方法是忽略掉同时拥有 第一和第二标签的样本,如Model-i算法;另一种方法是 用两个两类分类器来处理这样的子问题,如多标签成对比 较算法;还有一种方法是直接创造一种三类的分类器来处 理这样的子问题,如平行支持向量机算法。
基于单个优化问题的多标签方法 在基于单个优化问题的方法中,要求只建立一个最优 化问题来处理所有的样本,并且这些样本拥有多个标签, 因此建立和计算这样的最优化问题是整个基于单个优化问 题的方法中最重要的问题,而根据建立的最优化问题的不 同,基于单个优化问题方法也有多种形式。
例如: Boos Texter 算法、 Rank-SVM 算法、最大化间 隔标签法、多标签最大化熵算法、多标签k 近邻算法等等。 总体而言,基于单个优化问题方法的优点是没有改变数据 的结构,没有破坏类与类之间的联系,但它的主要缺点是 往往最优化问题过于巨大需要大量的计算时间。
Thank you !