当前位置:文档之家› 文本分类方法研究

文本分类方法研究

毕业论文题目:文本分类方法研究姓名:***院系:理学院物理系专业:物理学年级: 2013级学号: ********* 指导教师:**二〇一七年六月摘要近些年来,随着信息技术的发展与应用,互联网上的数据错综复杂,面对如此纷繁复杂的数据,需要借助数据挖掘对数据进行处理来实现对数据的分类,以便查询和搜索,实现数据的最大利用价值。

文本分类在信息处理方面占有重要的作用,到目前为止,有很多种方法:KNN SVM 决策树,以及贝叶斯等算法可以帮助我们快速的对文本进行自动分类,本文主要研究KNN SVM两种方法,在比较这两种分类对中文文本分类的基础之上,分析了K 临近算法和支持向量机的优缺点,因SVM和KNN具有互补的可能性,提出了SVM和KNN组合[1]的算法。

实验表明:SVM和KNN有很好的分类效果。

关键词:文本分类,SVM、KNN,线性组合AbstractIn recent years, with the development of information technology and application, the complexity of the data on the Internet in the face of so complicated data, need with the help of data mining, data processing to implement the data classification, in order to query and search, and realize the maximum utilization of the data value.Chinese text classification plays an important role in Chinese information processing, for example, Chinese information retrieval and search engine, KNN SVM decision tree, and the bayesian algorithm can be applied to Chinese text classification, based on the research analysis compares the two kinds of KNN and SVM classification method, and the experimental comparison of the two algorithms of Chinese text classification effect, on the basis of analyzing the K near the advantages and disadvantages of the algorithm and support vector machine (SVM), found that the SVM and KNN has the possibility of complementary, SVM and KNN algorithm of linear combination is presented.Key words: Text classification, SVM, KNN, linear combination目录摘要..................................................................................................................................... I I Abstract (III)1 引言 (1)1.1文本分类背景和意义 (1)1.2文本分类的应用领域和发展趋势 (1)2 文本分类主要过程 (2)2.1文本分类的定义过程及评价 (2)2.2关于文本分词 (2)2.3特征项权重(向量空间) (3)2.4特征项选择(常用的降维方法) (5)3 常用的文本分类方法 (10)3.1k临近分类器 (10)3.2支持向量机分类器 (11)4 实验及结果分析 (15)4.1实验质量评估指标 (15)4.2试验目的 (16)4.2实验条件 (16)4.3实验结果分析 (16)总结 (18)致谢 (19)1 引言1.1文本分类背景和意义随着互联网的飞速发展,网络上的信息的数量也快速地增长。

据统计,截止到2014年12月,我国网页数量达到1899亿个,静态网页和动态网页数量都处于不断增长的趋势,依照这样的速度发展下去,我国网络信息的容量会呈现出爆增的状态。

信息量的确在不断增长,而人们的信息分析和信息利用能力是有限的,如何在这样的海量数据信息中找到对于自己有价值的信息,就成为人们关注的焦点。

从单一客体网页的角度来看,保证做好合理的规划和安排,基于人工判断的模式显然难以完成如此大量的工作,此时就需要依靠更加先进,更加高效的分类方式。

信息资源的无限增长给信息处理提出了亟待解决的难题。

一方面,数字化信息资源数量高速增长;另一方面,人们获取有价值信息的需求也在不断提高。

如何在浩瀚而又复杂的信息中检索出有效的信息,一直是信息处理领域追求的目标。

在信息处理领域,关于信息资源的加工和组织方法较多,其中文本的自动分类是比较关键的技术,并且有广泛的应用。

文本自动分类是根据文本的语义,将大量的文本自动分门别类。

有序的分类能够为人们浏览和查找信息提供许多便捷。

因此,不断推进文本自动分类技术的发展迫在眉睫。

1.2文本分类的应用领域和发展趋势文本分类能够有效的组织管理杂乱的信息,这一特性在现代很多科技领域很受欢迎,例如Internet、网络图书馆、网络安全、电子邮件等。

在Internet中引入文本分类系统,基于关键词,在搜索页输入要查找的内容,电脑系统可以自动判定与之相关的类别并可以快速、准确、全面的搜索出想要的答案,查询速度和精度以及稳定性也是非常的高效,这为我们的生活提供了方便。

图书馆的信息资源可谓成千上万,能够快速高效的查询到我们想要的信息,如果单纯的一个个搜索,会花很长的时间。

将文本自动分类技术应用到图书馆领域,这样不仅阅读者在寻找自己想要的图书也会很高效,而且减少图书管理员的时间进行整理和查询使查询更加简单方便。

大数据规模巨大,随处可见,分布广泛,动态衍变,带来数据复杂性的挑战,因此文本分类技术的发展就显得尤为必要。

在网络安全方面,文本分类技术可以对信息进行访问,将不良信息剔除,为用户带来很多方便。

在电子邮件方面,文本分类系统可以将邮件进行分门别类。

2 文本分类主要过程2.1文本分类的定义过程及评价文本分类的过程,可以将其看做为映射的过程。

从无序到有序的历程中,不仅仅可以实现一对一的映射,还可以实现一对多的映射。

此时,完全可以以数学映射的概念来诠释文本分类。

下图为文本分类的流程图:图2.1文本分类流程示意图2.2关于文本分词文章是由字,词,句,段,篇构成的。

词是构成文章的基础,首先需要对文章进行分词,然后将词表示成空间向量,最后进行计算。

最后分类结果的好坏由分词的好坏直接决定,分词的标准是越细越好,词语提取越准确越好,nlpir 的分词效果较其他分词工具更准确些,更权威。

2.3特征项权重(向量空间)2.3.1布尔框架(Booolean weighting )单一特征词i ,为了对于其权重实现界定,就会采取特定的界定手段,在此环节,其界定机制为:权值定义为:W ik =分析:此种方法只是显示了特征词是否存在,出现的次数不能很好的反应分类的效果,因此我们选用下面的方法。

2.3.2TF-IDF 计算权值算法TF-IDF (term frequency –inverse document frequency ),IF 词频:假设实际的词汇为“中国”,这个“中国”词汇在整个文章中会出现多少次,这个次数代表的就是词频。

IDF 频率代表的是:为收集对应信息,给定了80篇文章,而实际数据库中有120篇文档,此时可以计算出其比重为:0.67。

上述两个概念可以诠释如下的问题:单一词汇,在某篇文章中出现的次数越大,此时其IF 取值也不会小;但是从宏观数据库角度来看,如果其在数据库中的次数多,此时自身权重反而不会太大,甚至出现下跌的情况。

TF (词频)计算公式1 特征词i 出现在文档k 中 0 特征词i 未出现在文档k 中公式2-1公式2-2分子代表的是:词汇在文章中的出现次数多少;分母代表的是:全部词汇在文章中出现的次数是多少。

依照实际设定原则,如果同样的词出现两次,分母是不会进行叠加处理的。

举例1:在一篇科普类文章中,“鸟儿”在文中出现次数是7,文章中的总词数是1000,则“鸟儿”这个词的词频为:TF=7/1000=0.7%IDF(反文档频率)计算公式公式2-3D ;数据库中篇章数量多少;Si 代表的是,在数据库中出现词汇I 的文章数量多少。

TF-IDF 最后得到i 的权值公式为公式2-4 举例3:综合例1,例2,那么地球这个词,在语料库中的权值为:TF*IDF=0.007*3=0.021TF-IDF 计算权值的好处分析:实例:“地球” 、“的”、 “公转”在所指定的一篇文章中出现的次数分别是7,100,5,如果只采用IF 计算方法,如果文章有1000词,三个词的频率为:0.007,0.1,0.005,三个词加起来对这篇文章的贡献值为0.112,我们知道在并不能表征这篇文章的特征,而所占比例很小的飞行和鸟儿则可以表征。

因此只用IF 值存在漏洞,于是我们引入IDF ,语料库中含有的总文章数为105其中鸟儿文章数为10^2,在的文章数为10^5,含有飞行的文章数为10^3,那么有如下公式:W (鸟儿)=0.007*lg(10^5/10^2)=0.021i i S D lgIDF =ii i i i S D lg Q M IDF TF W *=*=QM TF ii =W (在)=0.100*lg(10^5/10^5)=0W(飞行)=0.005*lg(10^5/10^3)=0.0102.4特征项选择(常用的降维方法)当空间向量形成之后,由于一篇文章的文本分词很多,对应的空间向量长度很长,如果直接运用分类算法,计算时间较长,效果也不是很好。

为了保证实际效果,会以减少向量长度的方式来应对。

一般情况下,此时采取的手段主要有:基于信息的降维方式,要么以增益的方式,要么以互信息的方式来进行;期望交叉熵的方法;量化理论下的X^2统计;定性视角下的文本证据等。

相关主题