第34卷第3期2019年5月内蒙古民族大学学报(自然科学版)Journal of Inner Mongolia University for NationalitiesVol.34No.3May2019基于卷积神经网络的文本分类研究综述裴志利1,阿茹娜2,姜明洋2,卢奕南3(1.内蒙古民族大学计算机科学与技术学院,内蒙古通辽028043;2.内蒙古民族大学数学学院,内蒙古通辽028000;3.吉林大学计算机科学与技术学院,吉林长春130012)[摘要]随着互联网及其相关技术的高速发展,网络数据呈现出井喷式的增长,其中主要以文本的形式大量存在,数据在这种增长趋势下,文本分类已经成为越来越重要的研究课题.如今,采用深度学习技术对文本进行表示受到研究者的极大关注.如采用卷积神经网络对文档进行表示和分类等自然语言处理.本文主要对基于卷积神经网络的文本分类方法进行了研究,介绍了几个具有代表性的卷积神经网络模型结构.最后提出了对基于该方法文本分类的展望.[关键词]卷积神经网络;文本分类;深度学习[中图分类号]TP393[文献标识码]A[文章编号]1671-0815(2019)03-0206-05Survey of Text Classification Research Based onConvolutional Neural NetworksPEI Zhi-li1,Aruna2,JIANG Ming-yang2,LU Yi-nan3(1.College of Computer Science and Technology,Inner Mongolia University for Nationalities,Tongliao028043,China;2.College of Mathematics,Inner Mongolia University for Nationalities,Tongliao028000,China;3.College of Computer Science and Technology,Jilin University,Changchun130012,China)Abstract:With the rapid development of the Internet and related technologies,network data has shown a spurt growthtrend,which mainly exists in the form of text.Under this growth trend,text classification has become an increasinglyimportant research topic.The use of deep learning technology to express the text has received great attention.For example,natural language processing such as convolutional neural network is used to represent and classify documents.The textclassification method based on convolutional neural network is investigated.Several representative convolutional neuralnetwork model structures are introduced.Finally,the prospect of text classification based on this method is proposed.Key wrrds:Convolutional neural network;Text classification;Deep learning0引言随着网络媒体的出现,用户生成的内容以飞快的速度填充数据资源,这些数据的自动处理引起了研究者的巨大关注.文本分类是自然语言处理领域的重要任务,包括情感分析、对话分析、文献综述、机器翻译等[1].文本分类具有多种方法,传统的机器学习分类算法有支持向量机算法(Support Vector Machine,SVM)[2]、朴素贝叶斯算法(Naive Bayesian Classifier,NBC)[3]、决策树算法(Decision Tree,DT)[4]、K-最近邻算法(K-Nearest Neighbor,KNN)[5]等,采用传统算法文本分类时需要人工进行特征提取,耗费时间和精基金项目:国家自然科学基金项目(61672301);内蒙古自治区“草原英才”工程产业创新人才团队(2017);内蒙古自治区科技创新引导奖励资金项目(2016);内蒙古民族大学特色交叉学科群建设项目(MDXK004);2019年度内蒙古自治区高等学校“青年科技英才支持计划”(NJYT-19-B18)作者简介:裴志利,内蒙古民族大学计算机科学与技术学院教授,博士.DOI:10.14045/ki.15-1220.2019.03.005第3期裴志利等:基于卷积神经网络的文本分类研究综述力,此外文本数据具有高维度、稀疏的特点.为了解决这些问题,2006年Hinton 提出深度学习(Deep learning )的概念[6].其中,卷积神经网络(Convolutional Neural Networks,CNN)是典型的深度学习技术,已在语音识别和图像识别等领域中成功应用且取得了很好的成果,使得很多国内外学者尝试利用CNN 对文本进行特征提取,去掉繁杂的人工特征工程[7].该方法不仅分类效果优于传统算法且使用方便,也是十分值得关注的一套框架.在CNN 应用拓展方面,如何合理充分利用该方法增强传统学习算法的性能仍是文本分类领域的研究重点[8].本文主要介绍了以下内容:卷积神经网络用于句子分类方法、动态卷积神经网络文本分类方法、基于卷积神经网络句子匹配模型、基于循环和卷积神经网络的文本分类研究方法等.1深度学习深度学习中的“深度”是相较于浅层机器学习方法而言的,是当前机器学习领域的研究热点.它的概念起源于人工神经网络,人工神经网络也算是基于深度学习方法的统一称呼,人工神经网络起始于上世纪40年代,主要是通过尝试模拟人脑视觉机理来解决各种机器学习问题[9].Hinton 提出的深度学习网络模型为基于非监督贪心逐层训练方法的深度置信网络,这种模型的训练方式解决了深度学习的优化问题[10].此外,Lecun 等人于1998年提出的CNN 是第一个真正意义上的多层结构学习算法[11].2卷积神经网络文本分类模型2.1CNN 概述在机器学习领域,CNN 是一种深度前馈神经网络,在分类和图像识别等领域已有显著成效,而且还成功应用于机器人和自动驾驶汽车的视觉模块,使其能够成功的识别人脸,物体和交通标志.CNN 是由多层感知机(MLP)变化而来的,基于生物学家休博尔和维瑟尔在早期对猫视觉皮层的研究,视觉皮层的细胞存在一个复杂的构造,这些细胞对视觉输入空间的子区域非常敏感,我们称之为感受野,以这种方式平铺覆盖到整个视野区域[12].CNN 作为目前最常用的深度模型之一,最初只适合做简单图片的识别,到现今已能够处理大规模数据,表明了CNN 所具有的潜力.2.2文本分类过程文本分类是指对给出的文本集按照一定的分类体系或标准进行分类和标记.文本分类过程主要包括文本预处理、文本表示、特征提取和数据分类[13].具体文本分类流程图如下:2.3CNN 文本分类经典结构CNN 基本结构主要包括输入层、卷积层、池化层、全连接层和输出层[14].(1)输入层:文本是以字或词为单位的向量集合,采用词向量作为输入层数据.为了将文本转化为可计算的数据类型,常用的词向量方法有word2vec、one-hot 或glove 等.向量表示层的主要任务就是将文本转化为向量矩阵,为卷积层提供完整数据.(2)卷积层:卷积层是整个CNN 的核心部分,主要的作用是提取文档矩阵的特征,通过设置卷积核的尺寸,可提取多种层次的特征,相比于全连接层,卷积层主要训练的是卷积核的各个参数.通过卷积运算可以使原信号特征增强,并且降低噪音[15].图1文本分类流程图Fig.1Flow chart of text classification207内蒙古民族大学学报2019年(3)池化层:池化层也称之为子采样层(pooling layer),主要的作用在于压缩由卷积层得到的矩阵尺寸,为下一层的全连接层减少训练参数,因此子采样层不仅可以有效的加速模型的训练,而且还在防止过饱和现象上有很大的作用.池化操作的原理较为简单,如果取某个矩阵块的最大值或平均值作为池化过程的输出值,则该过程被称之为最大池化(Max pooling)或平均池化层.实际上池化层也可以看作是一种特殊的卷积操作.(4)全连接:在许多分类任务中,网络经过卷积层和子采样层之后是一个或多个全连接层.全连接层与前一层所有神经元相连,以获取文本的局部信息,学习得到文本中具有类别区分的特征.最后一个全连接层与分类层相连,即输出层[16].(5)输出层:经过卷积层和池化层的操作后,已经提取了更高层次的特征,利用全连接的神经网络即可完成分类输出.输出层主要承接全连接层的输出,进一步用于分类,将输出层的值进行归一,并得到各个类别的概率分布[17].3几种CNN文本分类方法3.1CNN用于句子分类文献[18]提出了一种利用CNN完成句子分类的方法,采用的CNN结构比较简单.第一层均由一行行词向量矩阵组成,其次是卷积层,接着是Max-pooling最后一层是全连接的Softmax层,输出概率分布.通常一个卷积核只能提取一个特征,文献[18]中的模型是用多个卷积核(不同的大小)来获取多个特征.即使用长度不同的卷积核对文本矩阵进行卷积,然后使用Max pooling对每一个卷积核提取的向量进行操作,最后每一个卷积核对应一个数字,把这些卷积核连接起来,即得到了一个表示该句子的词向量,其输出是标签上的概率分布.该方法的最终目的是捕获最重要的特征,即一个具有最高价值的特征.作者通过该模型改善了情绪分析和问题分析等任务.该模型作为一个非常经典的模型,被很多其他CNN文本分类领域的论文作为实验参照.具体结构如图2所示.waitforthevideoanddotrentitFully connected layerwith dropout andsoftmax output n×k representation of sentencewith static of non-static channelsConvolutional layer with multiplefilter widths and feature mapsMax-over-time pooling图2例句中两个通道的模型体系结构Fig.2Model architecture with two channels for an example sentence3.2一种动态CNN文本分类模型文献[19]提出了一种动态卷积神经网络模型(Dynamic Convolutional Neural Network,DCNN),模型使用动态K-Max pooling,这是一种针对线性序列的全局池化操作.相比于文献[18]中的结构,文献[19]中的CNN结构更加复杂,模型中的卷积层使用了宽卷积,得到的特征图宽度比传统卷积的宽.卷积时用相同的汉语语言题型的卷积窗口在句子的每个位置进行卷积操作,这样可以根据位置独立地提取特征.池208209第3期裴志利等:基于卷积神经网络的文本分类研究综述化层使用了K-max pooling和动态K-Max pooling,K-Max pooling可以提取句子中活跃的特征(不止一个)同时保留它们的相对顺序.动态K-Max pooling是从不同长度的句子中提取出相应数量的语义特征信息,达到后续卷积层的统一性.该模型在小规模二元、多类情感预测、六项问题分类、双向情感检测四项实验中测试了DCNN,通过上述四项实验验证了高性能情感分类无需外部解析或提供其他资源的功能.具体结构如图3所示.K-max poolingFoldingWide convolution(m=2)Dynamic K-MaxWide convolution(m=2)Projected sentenceThe cat sat on the red mat图3动态k-max pooling操作的动态卷积神经网络结构Fig.3Dynamic convolution neural network structure for dynamic k-max pooling operation3.3一种基于CNN句子匹配模型文献[20]提出了适应于两个句子匹配的CNN模型,该模型将卷积与自然语言相结合.在文献[19]所采用的模型结构中,第一个卷积层后采用了简单的Max-Pooling方法,后面的池化层都是一种动态池化方法.模型不仅可以很好地表示句子的层次结构及其分层的位置,还可以通过它们的层次进行组合和池化,进而捕捉不同层次的匹配验证信息.该模型不需要自然语言的先验知识,因此可以应用于匹配不同性质和匹配不同语言的任务,实验研究表明了该模型的有效性及其相对于传统模型的优越性.3.4基于循环和CNN的文本分类研究文献[21]提出了结合循环网络和CNN的文本分类模型.该模型中使用词向量作为输入,用循环网络对文档进行表示,然后采用CNN对文档进行有效的特征提取,最后采用softmax回归进行分类.循环网络能够提取到词与词之间的关系,而CNN能够很好的提取出有用的特征.该模型在情感分类的电影评论数据集、包含主客观句子的情感分析数据集、二分类的情感分析数据集、问题分类任务数据集等六个文本分类任务中进行实验测试.作者通过上述实验证明了该模型能够很好的完成文本分类任务,且在分类任务上能够得到较好的性能.4未来展望通过上述研究方法,对基于CNN文本分类领域的展望如下:(1)CNN文本分类方面仍有大量工作需要研究,目前的关注点还是从机器学习领域借鉴一些可以在CNN使用的方法,特别是降维和词向量表示等.(2)尽管卷积神经网络在很多任务中有不错的表现,但还需要注意固定卷积核大小,如何最快的得到超参调节等繁琐的问题.210内蒙古民族大学学报2019年(3)目前应用于文本分类的算法有传统算法和其他深度学习的算法,以后研究学者会更加关注CNN 与这些算法的融合应用.5结束语本文首先给出了在解决文本分类任务中存在的问题,介绍了卷积神经网络的概念及其卷积神经网络文本分类的一般过程,说明了该网络在文本分类中的重要性;其次介绍了几种典型的用于文本分类的模型;最后给出了对基于CNN文本分类的展望.希望本文使读者对该领域有一个比较直观、清晰的认识,为以后的研究工作起到指引作用.参考文献[1]Yan Danfeng,Ke Nan,Gu Chao,et al.Multi-label text classification model based on semantic embedding[J].The Journal of China Universities of Posts and Telecommunications:1-11[2019-03-29].[2]尹旭东.基于并行SVM算法的中文文本分类方法研究[D].吉林:吉林大学,2018.[3]邹晓辉.朴素贝叶斯算法在文本分类中的应用[J].数字技术与应用,2017(12):132-133.[4]林炎钟.基于决策树分类算法的Web文本分类研究[D].苏州:江苏科技大学,2011.[5]闫晨.KNN文本分类研究[D].秦皇岛:燕山大学,2010.[6]Hinton G,Salakhutdinov R R.Reducing the dimensionality of date neural network[J].Science,2006,313,(5786):504-507.[7]Zhang Y,Wallace B.A sensitivity analysis of(and practitioners’guide to)convolutional neural network for sentence classification[J].Computer Research Repssitory,2015,16(1):105-119.[8]张曼,夏战国,刘兵,等.全卷积神经网络的字符级文本分类方法[J].计算机工程与应用,1-11[2019-05-05].[9]齐凯凡.基于卷积神经网络的新闻文本分类问题研究[D].西安:西安理工大学,2018.[10]Hinton G E,Osindero S,The Y W.A fast learning algorithm for deep belief nets[J].Neural Computation,2006,18(7): 1527-1554.[11]Lecun Y,Bottou L,Bengio Y,et al.Gradient-based learning applied to document recognition[J].Proceeding of the IEEE:1998(11):2278-2324.[12]孙璇.基于卷积神经网络的文本分类方法研究[D].上海:上海师范大学,2018.[13]侯小培,高迎.卷积神经网络CNN算法在文本分类上的应用研究[J].科技与创新,2019(4):158-159.[14]Qin P,Xu W,Guo,J.An empirical convolutional neural network approach for semantic relation classification.Neurocomputing,2016,190:1-9.[15]杨真真,匡楠,范露,等.基于卷积神经网络的图像分类算法综述[J].信号处理,2018,34(12):1474-1489.[16]马骁.基于深度卷积神经网络的图像语义分割[D].北京:中国科学院大学(中国科学院光电技术研究所),2018.[17]汪岿,费晨杰,刘柏嵩.融合LDA的卷积神经网络主题爬虫研究[J].计算机工程与应用,1-11[2019-03-15].[18]Kim Y.Convolutional Neural Networks for Sentence Classification[J].computer scien,2014,1408:5882.[19]Kalchbrenner N,Grefenstette E,Blunsom P.A convolutional neural network for modelling sentences[J].computer science,2014,1404:2188.[20]Hu B,Lu Z,Li H,et al.Convolutional neural network architectures for matching natural language sentences[C]// Advances in Neural Information Processing Systems,2014:2042-2050.[21]刘腾飞,于双元,张洪涛,等.基于循环和卷积神经网络的文本分类研究[J].软件,2018,39(1):64-69.[责任编辑郑瑛]。