当前位置:文档之家› 文本分类研究综述

文本分类研究综述

技术交流| /

Tech no logy Discussi on

IX

2019.3数据通信

文本分类研究综述汪 " 刘柏嵩(

宁波大学信息科学与工程学院浙江宁波315211

摘要:在大数据时代,网络上的文本数据日益增长

。采用文本分类技术对海量数据进行科学地组织和管理

显得尤为重要。文本分类算法的研究起源于上个世纪50年代,一直受到科研人员的广泛关注

本文围绕文本分

类的关键技术和基本流程进行重e阐述,主要包括文本预处理、词和文本的分布式表示、特征降维

分类算法等多

个模块。其中详细分析了几种分类模型与分类方法,如深度学习、迁移学习、强化学习等等。此外,本文简单介绍

了文本分类的评价指标与应用场景,并对当前面临的挑战及未来的烁趋势进行总结、预测。关键词:文本分类;特征降维, 学中图分类号:TP391.1 文献标识码:A

1引言

随着科技的进步和互联网技术的发展,数字化资

源已经渗透到当今社会的各个行业。然而这种爆发式

的增长也给信息检索带来了困扰。文本作为分布最 广、数据量最大的信息载体,如何对这些数据进行有效 地组织和管理是亟待解决的难题。

文本分类是自然语言处理任务中的一项基础性工 作,的是对文本资源进行理和归类,同时其也是 解决文本信息:载题的 。个世纪中叶,有文本信息处理的研究开

始走进人们的。

是最

的分类算

,这种 据文档中是 了与类

的来 文是 个类o 然,这

种 的 带来 的分类效

20 纪 70 ,Salton [1] 了量

型。 来一 ,

为文本分类的主

要技术。然而这种技术 业 的,需为 个类 大量的 理 和 , 了

、 的大量。 个纪90 ,基

和 的文本分类 °龙

文 中 一些 有效分类的 , 到分

类,为 的 。今为,经过数 的

,文本分类已经初步形成了对完的理论体系

文本分类按照任务类型的不可划分为题分类$2%、主题分类[3]以及情感分类⑷。常用于数字化图

书馆、舆情分析、新闻荐、邮件滤领域,为文本资

源的查询、检索供了有支撑,是当的

研究热

点之一 O本文以文本分类的相关工作为研究对象,全文组

织结构如下:第2 描述文本分类的基本概念;第

3 、第4

围绕文本分类的 技术进行重点阐述;

第5 、第6 介绍文本分类的评价指标,概括分

析了文本分类的应用场景与挑战;第7总结全文,并

对未来的发展趋势做预测"

2文本分类概述文本分类是指按照一的分类体系标准使用机 对文本集进行自动分类标记的。宏观上看,

整个分类 可以似地看作数 做映射的 。

因此,我们可用映射系诠释文本分类的概念。文本分类的数 如下:假设给 文 集合! = (#1 ,#+ ”$,#”

类别集

基金项目:国家社会科学基金项目/后期资助项目“学术型大数据知识组织与服务标准研究项目编号:

15FTQ002)、省部级

实验室/开放基金“数字图书馆知识组织与标引标准规范研究”(项目编号:B2014)。

37技术交流Technology Discussion数据通信2019.3

合C二{# ,C" # $其中,& ,

#分另

」表示集合中

第'篇文档和第

j个类别;),%为集合*的文档总数

和集合C的类别数。我们可以发现文档集合和类别集

合之间存在一定的映射关系+ , C! - , - " )0,1($ 当+&,#) - 1时,表示文档&属于#类;反之,当

+ &,#) "0

时,

文档

&不属于

#类,/为分类器。

文本分类从流程上可分为文本预处理、文本表示、

特征提取、分类器训练等过程,其中最关键的步骤是特

征提取和分类器训练。接下来,

我们将对文本分类的

关键技术进行详细分析。

3文本分类的关键技术3.1文本预处理

在处理文本数据时,首先要对原始信息进行预处 理。由于中文数据词语之间没有明确的分隔符且存在

一定的噪咅信息以在预处理 要过分词、

词、 词过 等过程$ 现有的分词 可分为

类:分别为基于字符串匹配(词典)的分词方法、基于

理的分词方和基于统的分词方。 来fc

将 技术于中文分词⑸。

于 文的语 特征,

在对

文文本进行预

处理时,

、词干提取等步骤,

数据

预处理的 接 的关 $

3.2词向量与文本表示文本是由词和 语 的符 $ 要将 语 言处理 器可 的数 ,

首先要对

词和文本进行 $

One-hot表 方 是 的词 表示方法$旻

设.为整个词表 间,

个词的词 可表示为:

/二{0,0,

,

1,0…# "

-(1 X|7VI)

,词在词表中对

的 为 1, 其 为

0$

词 是语 (Language Model)的 ,

为了

表示 的不,

Hinton、bengio等 提

分 表和词

$ 典的

型包括HLBL⑹、

RNNLM⑺等,其中最具有代表性的

是:Mikolov等人基于CBOW和Skip - gran模型提出 的,合 的词 训练方

Word2vec⑻

过方可训练 、

、定的词向

量,

进可以

、准确地

词语之间的似

传统的文本表示 有尔、 间

ESM(Vector和

ace Model

)、概^模型以及图空间模型。

然而,这些传统的文本表示方 缺乏语义表征能力。

伴随着WoA2vec、

Glove

*G」

等分布式单词表示技术的兴

起,文本表示 广泛的 和 $如

Joulin等人基于 并开发出一款词向量训练和文本分类的 FatText

*10+$

此外,为

在词 处理 忽略单词之间排列顺 的缺

陷,Doc2vec*11+在Word2vee t 的基础上引 落信

息,

增强

表示文本语义的准确和完 $

3.3特征驱动与文本分类

特征降维是文本信息处理的关键环节。传统的文 本分类 基于词袋 和 间 ,

特征间

有 。然而这种、离散的特征给关Q来 不便 时仝

S杂度较

$

同时,特征的几余

以及缺乏有效关联也会]分类,能

特征选择特征降维的方法包括特征选择和特征抽取$特征

选择是指从原始的特征间中筛选部分重要特征组成 新的特征集合,

从而提高文本分类的准确率和 率

,

改变原始间的 $ 的特征选择

有文档频

率、期望交叉爛、互信息等等。

本文对比分析了几种常

方 , 如下表

示$

表1特征选择算法对比分析

特征选择算法主要原理优点

缺点

词频-逆 文本频率

某词条在一篇文章中 出现的频率越高,且文

档集中包含该词条的 文档数较少,则该词条 的特征权重越大原理简单,直观 高效,具有普适 性。适合在单篇 文档中提取特 征没有考虑特征在 类内、类间的分布 情况

期望交叉爛用来衡量某个特征对 训练集整体的重要性。 其值表示:出现某特定词的条件下类别的概 率分布与类别本身概 率分布的距离

不考虑特征项 缺失的情况,降 低稀有特征的 干扰,提高分类 效率缺少对类间集中

度、类内分散度的

度量

互信息一种信息度量方法,表

示一个随机变量中包 含的关于另一个随机 变量的信息量

适用于局部信 息(单一类别) 和全局信息的 特征选择低频词的互信息 较大,容易引起过 学习;忽略了文本

量对词条在每个 类别中出现概率 的影响

信息增 益

用以度量两种变量的 概率分布差异,具有非 对称性。通过计算不同 情况下的条件概率,选

择信息增益较大的词 条构成特征空间

综合考虑了特 征项出现与缺 失的情况只适用于全局信 息的特征选择,计

算量大

卡方检 验

通过观察实际值与理 论值的偏差来确定理 论的正确与否,是一个 归一化的统计量适用于局部和全局信息的特 征选择,忽略词

频的影响

计算开销大,过于

注重一篇文档中 某个特征的出现 与否,对低频词的 统计结果有所偏 袒

38

相关主题