当前位置:文档之家› 国内外文本分类研究计量分析与综述

国内外文本分类研究计量分析与综述

国内外文本分类研究计量分析与综述一发表于《图书情报工作》2011年第55卷第6期:78-142,欢迎大家下载、参考和交流胡泽文王效岳白如江山东理工大学科技信息研究所淄博255049

[摘要]运用文献计量分析方法、计算机统计分析技术、社会网络分析软件对文本分类领域的历史文献进行计量分析及可视化,通过绘制文献数量分布图、核心关键词的共现网络,挖掘文本分类领域的发展趋势、目前研究概况、热点及未来研究趋势等信息,并对文本分类领域研究热点和未来研究趋势进行综述。[关键词]文本分类计量分析社会网络分析可视化图谱[分类号]G250TP391

QuantitativeAnalysisandReviewofTextClassificationResearchatHomeandAbroadHuZewenWangXiaoyueBaiRujiangInstituteofScientificandTechnicalInformation,ShandongUniversityofTechnology,Zibo255049,China

[Abstract]Thispapercarriesoutthequantitativeanalysisandvisualizationtothehistoricalliteraturesoftextclassificationdomainbyusingthebibliometricanalysismethod,thecomputerstatisticanalysistechnologyandthesocialnetworkanalysissoftware.Bydrawingtheliteraturequantitydistributionmapandco-occurrencenetworkofthecorekeywords,excavatesthedevelopmenttrends,thecurrentresearchsituations,hotspotsandthefutureresearchtrendsetcintextclassificationdomain,andmakesareviewontheresearchhotspotsandfutureresearchtrends.[Keywords]textclassificationquantitativeanalysissocialnetworkanalysisvisualizingmap

1引言

随着数字化文档信息总量的快速增长,大规模文本处理已经成为一个挑战。传统向量空间模型表征文本的方法逐渐呈现出一些问题,比如忽视词间语义关系,不能解决同义词、多义词、词间上下位关系等问题,为解决这些问题,国内外学者开始从概念或语义层次上对文本自动分类方法展开广泛的研究,出现一些新的文本分类方法,如基于词典或概念的文本分类、基于本体或语义的文本分类等。随着文本分类领域的快速发展,文本分类领域的总体发展趋势、研究概况、热点及未来发展趋势如何,将是我们关注的焦点。因此关于文本分类领域文献信息的计量分析与综述具有重要的理论、现实和指导意义。2样本与方法

样本数据检索情况如表1所示,共检索到1851篇国内外相关文献。在方法运用上,利用文献数量分析方法对国内外文本分类领域的发展趋势进行对比分析;利用Excel2007、SQL语句的数据处理与统计分析功能、社会网络分析软件Ucinet和NetDraw[1]的数据分析及可视化功能等,对文本分类文献中的关键词进行词频统计与分析、共现频次统计与分析,绘制国内外文本分类领域研究概况和热点的可视化图谱。据此可以解读国内外文本分类领域的发展趋势、研究概况、热点等信息。表1样本数据的检索情况数据库检索入口检索词时间范围文献数量

一本文系国家社科基金项目“海量网络学术文献自动分类研究”(项目编号:10BTQ047)和教育部人文社

会科学研究项目“基于本体集成的文本分类关键技术研究”(项目编号:09YJA870019)的研究成果之一。CompendexTitle"textclassification"OR"textcategorization"1969-2009954ScienceDirect1969-Present去重:60中国期刊全文数据库(CNKI)篇名文本分类(精确匹配)1999-2009615中国硕博学位论文数据库(CNKI)题名文本分类(精确匹配)1999-20092223分析与结果

3.1文献数量分析

对表1中1980-2009年30年间的国内外文本分类文献数量进行分析(5年一个区间,30年共计6个区间),具体如图1所示。从图1可以看出,国外在文本分类方面的研究存在如下特点:①起步较早。德国学者Giere,W.和Dettmer,H.在1986年就提出基于词典的文本分类与检索[2]。国内在1999年才出现文本分类方面的研究文献,比国外晚了13年;②实际应用成果多,不过理论落后于实践。国外自动分类技术早在1975年就进入实用化阶段,而理论研究从1986才开始,落后于实践11年;③发展速度快。国外从1995年开始进入快速增长期,而国内从2000年才开始进入快速增长期,比国外晚了5年。国内在文本分类方面的研究虽然起步较晚,应用成果少,但是发表的文献数量较多。国外在快速增长期(1995-2009)内共发表文献510篇,而国内在快速增长期(2000-2009)内发表文献1338篇,比国外多出828篇。

图11980-2009年国内外文本分类文献数量分布图3.2词频分析

利用作者提出的词频统计分析方法[3]对检索到的文献关键词进行统计分析,获得文本分类领域高频关键词86个。对86个高频关键词进行词频分析,发现国内外对文本分类领域的研究主要集中在以下几个部分(词汇后括号中的数字为词频):⑴文本分类过程。主要对分词(18)、词汇处理(27)、文本表示(27)、向量空间模型(200)等进行研究。最常用的文本表示方法是向量空间模型,到目前为止,国内外学者重点研究的向量空间模型主要有词向量空间模型、语义向量空间模型。词向量空间模型存在向量空间维度过高、词项之间缺乏语义关系等问题,针对这些问题,国内外学者提出语义向量空间模型,尝试利用潜在语义索引(32)技术或本体(28)的概念语义关系挖掘词项之间的语义关系,构建低维的语义向量空间模型。⑵文本分类算法。目前国内外学者重点研究的文本分类算法有支持向量机算法(257)、K-近邻(102)算法、神经网络算法(90)、朴素贝叶斯(56)算法、决策树算法(28)和遗传算法(24)。未来研究趋势将是各类算法的融合、改进和提高。⑶文本分类降维技术。文本分类的一个核心难题就是特征空间的高维性,因此文本分类降维技术是国内外学者研究的重中之重。降维技术主要分为两大类:特征选择(475)和特征重构(85)。特征选择是去除文档中信息量少的项以提高分类的效率,目前流行的特征选择方法有TF×IDF方法(11)、主分量分析(6)、互信息(27)、信息增益(20)和信息熵(6)。特征重构是将原有特征集T加以联系和转化以构建新特征集T’的过程,从而使得降维的效果最大化。目前主要有两种特征重构方法:项聚类(25)、潜在语义索引(32)。

⑷文本分类应用领域。主要对文本分类在信息检索(216)、学习系统(205)、数据挖掘(115)、文本挖掘(39)、模式识别(35)、数字图书馆(13)等领域的应用方法、原理和模型进行研究。3.3共现频次分析

利用程序统计“文本分类”与3.2节中获得的86个高频关键词在文本分类文献标题中共现的频次,根据词汇之间的共现频次,利用Ucinet6的矩阵编辑功能构建文本分类与其领域关键词汇的共现矩阵,再利用NetDraw绘制文本分类与其领域关键词汇的共现网络如图2所示。从图2可以看出,文本分类领域的研究热点主要有文本分类特征选择方法、文本分类方法如传统的支持向量机分类算法、K-近邻分类算法和目前基于语义的文本分类方法。

图2文本分类与其领域关键词汇的共现网络4文本分类研究热点综述4.1文本分类特征选择方法目前常用特征选择方法有TFIDF方法、互信息、信息增益等,其主要利用特征权重统计方法统计文档集中特征项的权重,然后设定阈值,选择特征权重大于等于阈值的特征项构建文档特征空间进行文本分类模型的训练。不过在特征选择过程中,由于没有考虑词间语义关系如同义关系、多义关系、上下位关系等造成特征空间维度较高,文本分类性能无法提高到一个更高水平。针对此问题,国内外学者对传统特征选择方法进行改进和提高,将特征选择方法与特征重构方法如聚类、潜在语义索引等进行融合。如国内学者刘海峰等人将TFIDF和互信息特征选择方法分别进行改进,并重新组合,形成一种新的特征选择方法[4]。季铎、郑伟、蔡东风等人提出融合文档频率和潜在语义索引的文档特征优化方法,首先利用文档频率对文档集合进行特征选择,然后利用潜在语义索引技术挖掘特征之间语义关联,形成低维语义向量空间[5]。4.2文本分类方法4.2.1支持向量机分类算法

支持向量机算法是以结构风险最小化原则为基础,通过构造分类超平面进行无序文本的分类,具有很强的学习能力和较好的泛化性能,只需较少的样本就可以迅速训练出具有较高性能指标的分类器,在解决小样本、非线形及高维模式识别问题中表现出许多特有优势[6]。不过,其对于大规模数据集,训练速度异常缓慢,并且需要占用很多内存。针对此问题,一些学者提出相应的解决方案如利用数据集分解算法如Bagging算法[7]、Google的Map/Reduce算法[8]等将大数据集分解成小的数据集分别进行支持向量机的训练,然后通过合并算法将各支持向量机进行两两合并,形成最终的支持向量机分类模型[9]。4.2.2K-近邻分类算法KNN算法的基本思想是在训练样本中找到测试样本的K个最近邻,然后根据这K个最近邻的类别来决定测试样本的类别,具有很好的鲁棒性,简单易用,对于大规模数据非常有效。但是,它存在如下缺点:①计算量巨大,要求计算未知文本与所有训练样本间的相似度进而得到K个最近邻样本。针对此问题,吴春颖和王士同提出融合Rocchio和KNN的文本分类方法,其先通过Rocchio分类算法快速得到k0个最有可能的候选类别,然后在k0个类别训练文档中抽取部分代表样本采用KNN算法[10]。②在决定测试样本的类别时,把测试样本的K个最近邻等同对待,没有考虑这K个最近邻在所属类别中的重要程度。针对此问题,江涛、陈小莉等学者提出利用聚类算法,求出训练样本集合中每个训练样本的隶属度,利用隶属度来区别对待测试样本的K个最近邻[11]。4.2.3基于语义的文本分类方法该方法主要借助本体、项聚类、潜在语义索引等挖掘词间语义关系,将原文档词项之间相互独立的高维特征空间转换为低维的语义特征空间或概念特征空间进行文本分类模型的训练。本体具有丰富的概念语义关系如同义关系、多义关系、上下位关系等和清晰的层次结构,利用本体可以将原文档高维特征向量中词性不同而语义相同的特征映射成相同的特征即本体同义词集,将具体的特征映射成通用特征即本体通用概念,从而建立低维的概念或语义向量空间模型[12]。项聚类就是试图将在语义方面具有高关联性的项分组,以该分组的表示代替这些项成为向量空间中的维度[13]。潜在语义索引是一个通过词共现产生语义向量模型的文本分类和文档索引技术,主要通过词—文本矩阵的奇异值分解技术解决文档向量维度过高的问题[14]。

相关主题