技术交流| /
Tech no logy Discussi on
IX
2019.3数据通信
文本分类研究综述汪 " 刘柏嵩(
宁波大学信息科学与工程学院浙江宁波315211
)
摘要:在大数据时代,网络上的文本数据日益增长
。采用文本分类技术对海量数据进行科学地组织和管理
显得尤为重要。文本分类算法的研究起源于上个世纪50年代,一直受到科研人员的广泛关注
。
本文围绕文本分
类的关键技术和基本流程进行重e阐述,主要包括文本预处理、词和文本的分布式表示、特征降维
、
分类算法等多
个模块。其中详细分析了几种分类模型与分类方法,如深度学习、迁移学习、强化学习等等。此外,本文简单介绍
了文本分类的评价指标与应用场景,并对当前面临的挑战及未来的烁趋势进行总结、预测。关键词:文本分类;特征降维, 学中图分类号:TP391.1 文献标识码:A
1引言
随着科技的进步和互联网技术的发展,数字化资
源已经渗透到当今社会的各个行业。然而这种爆发式
的增长也给信息检索带来了困扰。文本作为分布最 广、数据量最大的信息载体,如何对这些数据进行有效 地组织和管理是亟待解决的难题。
文本分类是自然语言处理任务中的一项基础性工 作,的是对文本资源进行理和归类,同时其也是 解决文本信息:载题的 。个世纪中叶,有文本信息处理的研究开
始走进人们的。
是最
的分类算
,这种 据文档中是 了与类
的来 文是 个类o 然,这
种 的 带来 的分类效
。
20 纪 70 ,Salton [1] 了量
型。 来一 ,
为文本分类的主
要技术。然而这种技术 业 的,需为 个类 大量的 理 和 , 了
、 的大量。 个纪90 ,基
和 的文本分类 °龙
文 中 一些 有效分类的 , 到分
类,为 的 。今为,经过数 的
,文本分类已经初步形成了对完的理论体系
。
文本分类按照任务类型的不可划分为题分类$2%、主题分类[3]以及情感分类⑷。常用于数字化图
书馆、舆情分析、新闻荐、邮件滤领域,为文本资
源的查询、检索供了有支撑,是当的
研究热
点之一 O本文以文本分类的相关工作为研究对象,全文组
织结构如下:第2 描述文本分类的基本概念;第
3 、第4
围绕文本分类的 技术进行重点阐述;
第5 、第6 介绍文本分类的评价指标,概括分
析了文本分类的应用场景与挑战;第7总结全文,并
对未来的发展趋势做预测"
2文本分类概述文本分类是指按照一的分类体系标准使用机 对文本集进行自动分类标记的。宏观上看,
整个分类 可以似地看作数 做映射的 。
因此,我们可用映射系诠释文本分类的概念。文本分类的数 如下:假设给 文 集合! = (#1 ,#+ ”$,#”
)
,
类别集
基金项目:国家社会科学基金项目/后期资助项目“学术型大数据知识组织与服务标准研究项目编号:
15FTQ002)、省部级
实验室/开放基金“数字图书馆知识组织与标引标准规范研究”(项目编号:B2014)。
37技术交流Technology Discussion数据通信2019.3
合C二{# ,C" # $其中,& ,
#分另
」表示集合中
第'篇文档和第
j个类别;),%为集合*的文档总数
和集合C的类别数。我们可以发现文档集合和类别集
合之间存在一定的映射关系+ , C! - , - " )0,1($ 当+&,#) - 1时,表示文档&属于#类;反之,当
+ &,#) "0
时,
文档
&不属于
#类,/为分类器。
文本分类从流程上可分为文本预处理、文本表示、
特征提取、分类器训练等过程,其中最关键的步骤是特
征提取和分类器训练。接下来,
我们将对文本分类的
关键技术进行详细分析。
3文本分类的关键技术3.1文本预处理
在处理文本数据时,首先要对原始信息进行预处 理。由于中文数据词语之间没有明确的分隔符且存在
一定的噪咅信息以在预处理 要过分词、
词、 词过 等过程$ 现有的分词 可分为
类:分别为基于字符串匹配(词典)的分词方法、基于
理的分词方和基于统的分词方。 来fc
有
将 技术于中文分词⑸。
于 文的语 特征,
在对
文文本进行预
处理时,
词
原
、词干提取等步骤,
数据
预处理的 接 的关 $
3.2词向量与文本表示文本是由词和 语 的符 $ 要将 语 言处理 器可 的数 ,
首先要对
词和文本进行 $
One-hot表 方 是 的词 表示方法$旻
设.为整个词表 间,
个词的词 可表示为:
/二{0,0,
…
,
1,0…# "
-(1 X|7VI)
,词在词表中对
的 为 1, 其 为
0$
词 是语 (Language Model)的 ,
为了
表示 的不,
Hinton、bengio等 提
分 表和词
的
$ 典的
语
型包括HLBL⑹、
RNNLM⑺等,其中最具有代表性的
是:Mikolov等人基于CBOW和Skip - gran模型提出 的,合 的词 训练方
Word2vec⑻
。
过方可训练 、
、
、定的词向
量,
进可以
、准确地
词语之间的似
。
传统的文本表示 有尔、 间
ESM(Vector和
ace Model
)、概^模型以及图空间模型。
然而,这些传统的文本表示方 缺乏语义表征能力。
伴随着WoA2vec、
Glove
*G」
等分布式单词表示技术的兴
起,文本表示 广泛的 和 $如
Joulin等人基于 并开发出一款词向量训练和文本分类的 FatText
*10+$
此外,为
在词 处理 忽略单词之间排列顺 的缺
陷,Doc2vec*11+在Word2vee t 的基础上引 落信
息,
增强
表示文本语义的准确和完 $
3.3特征驱动与文本分类
特征降维是文本信息处理的关键环节。传统的文 本分类 基于词袋 和 间 ,
特征间
有 。然而这种、离散的特征给关Q来 不便 时仝
S杂度较
$
同时,特征的几余
以及缺乏有效关联也会]分类,能
。
特征选择特征降维的方法包括特征选择和特征抽取$特征
选择是指从原始的特征间中筛选部分重要特征组成 新的特征集合,
从而提高文本分类的准确率和 率
,
不
改变原始间的 $ 的特征选择
有文档频
率、期望交叉爛、互信息等等。
本文对比分析了几种常
方 , 如下表
示$
表1特征选择算法对比分析
特征选择算法主要原理优点
缺点
词频-逆 文本频率
某词条在一篇文章中 出现的频率越高,且文
档集中包含该词条的 文档数较少,则该词条 的特征权重越大原理简单,直观 高效,具有普适 性。适合在单篇 文档中提取特 征没有考虑特征在 类内、类间的分布 情况
期望交叉爛用来衡量某个特征对 训练集整体的重要性。 其值表示:出现某特定词的条件下类别的概 率分布与类别本身概 率分布的距离
不考虑特征项 缺失的情况,降 低稀有特征的 干扰,提高分类 效率缺少对类间集中
度、类内分散度的
度量
互信息一种信息度量方法,表
示一个随机变量中包 含的关于另一个随机 变量的信息量
适用于局部信 息(单一类别) 和全局信息的 特征选择低频词的互信息 较大,容易引起过 学习;忽略了文本
量对词条在每个 类别中出现概率 的影响
信息增 益
用以度量两种变量的 概率分布差异,具有非 对称性。通过计算不同 情况下的条件概率,选
择信息增益较大的词 条构成特征空间
综合考虑了特 征项出现与缺 失的情况只适用于全局信 息的特征选择,计
算量大
卡方检 验
通过观察实际值与理 论值的偏差来确定理 论的正确与否,是一个 归一化的统计量适用于局部和全局信息的特 征选择,忽略词
频的影响
计算开销大,过于
注重一篇文档中 某个特征的出现 与否,对低频词的 统计结果有所偏 袒
38