当前位置:文档之家› 基于TAN结构的贝叶斯文本分类器

基于TAN结构的贝叶斯文本分类器

2012.153基于TAN 结构的贝叶斯文本分类器研究王景中 易路杰北方工业大学信息工程学院 北京 100144摘要:朴素贝叶斯分类器是一种简单且有效实现的文本自动类方法,但其独立性假设在实际中是不存在的。

在TAN 结构贝叶斯分类算法中,考虑了两两属性间的关联性,对属性间的独立性假设有了一定程度的降低。

关键词:文本分类;贝叶斯;TAN0 引言朴素贝叶斯分类器是贝叶斯分类中一种最常见且原理简单,实际应用很成功的方法。

朴素贝叶斯分类器中的“朴素”主要是指假设各属性间相互独立。

在文本分类中,假设不同的特征项在确定的类别下的条件概率分布相互独立,这样在计算特征项之间的联合分布概率时可以大大提高分类器的速度。

目前,很多文本分类系统都采用贝叶斯分类算法,在邮件分类、电子会议、信息过滤等方面都有了广泛的应用。

1 朴素贝叶斯分类器 1.1 贝叶斯公式介绍贝叶斯定理为:设S 为试验E 的样本空间,A 为E 的事件,1B ,2B ,…n B 为S 的一个划分,且有P(A)>0,P(i B )>0 (i=1,2,…n),则有:1(/)()(/)(/)()i i i nj j j P A B P B P B A P A B P B ==∑ ,i=1,2,…n 。

1.2 贝叶斯文本分类贝叶斯文本分类模型是一种基于统计方法的分类模型,是现有文本分类算法中最有效的方法之一。

其基本原理是:通过样本数据的先验概率信息计算确定事件的后验概率。

在文本分类中的应用为:通过计算给定文本的特征值在样本库中某一确定类i C 中的先验概率,得出给定文本的特征值属于 i C 类的后验概率,再通过比较,得出后验概率最大的即为给定文本最可能属于的类别。

因此,贝叶斯类别判别式为:12arg max (/,,)NB i n C P C w w w = (1)本文采用布尔表示法描述文本,每个文本表示为特征矢量(1w ,2w ,…V w ),V 为特征词表,V 为特征词表总词数,V=(1B ,2B ,…V B )。

特征矢量中的i w ={0,1},1表示特征词表中的第i 个词出现,0表示没有出现。

根据贝叶斯公式:121212(,,/)()(/,,)(,,)n i i i n n P w w w C P C P C w w w P w w w = (2)式中()i P C 为样本集中属于i C 类的概率,12(,,/)n i P w w w C …为i C 类中给定文本特征词的概率。

要求12max (/,,)i n P C w w w …,(2)式中分母12(,,)n P w w w …在给定的所有类别中为固定值,即为常量。

因此,只需求:12arg max (,,/)()NB n i i C P w w w C P C = (3)式中()i P C 的值为每个类别在样本集中的频率,即为样本集中属于i C 类的文本数与样本集中的总的文本数的比率。

12(,,/)n i P w w w C …的值计算比较困难,理论上只有建立一个足够大的样本集才能准确得到。

如何得出12(,,/)n i P w w w C …的值也是贝叶斯算法的关键,直接影响分类的性能。

目前只能通过估算得出。

由于贝叶斯分类模型的假设,文本特征属性之间独立同分布,因此各属性联合概率等于各属性概率的乘积,即:2012.15412(,,/)(/)n i j i jP w w w C P w C =∏ (4)式中(/)j i P w C 为i C 类文本中j w 的词频与i C 类文本的总词频的比率。

在本文中(/)j i P w C 的值估算采用下式:1111(/)(/)(/)j sDw i k k j i V D w i k s k N B C d P w C V NB C d ===+=+∑∑∑ (5)式中j w N 表示特征词的词频,D 表示类文本数,(/)i k B C d ={0,1},1表示文本k d 属于i C 类,0表示不属于i C 类。

1.3 TAN 结构的贝叶斯文本分类由Friedman 等人提出的TAN(Tree Augmented Naive)树状结构模型,使朴素贝叶斯模型独立性假设更符合实际。

在应用中的主要思路是采用贝叶斯网络中的表示依赖关系的方法,在其中的各叶节点之间增加一些必要的边,用来表示各属性变量之间的关系,从而放宽了朴素贝叶斯中的独立性假设。

朴素贝叶斯理论的独立性假设即要求每个属性有且仅有一个父节点,为类节点。

而TAN 模型中,用节点表示属性,通过有向边表示属性间的关系,把类别属性作为根节点,其余属性作为它的子节点。

在具体实现时这些增加的边需满足两个条件,首先,类别变量没有父节点。

其次,每个属性变量有一个类变量为父节点和最多另一个属性变量作为其父节点,即2i w π≤。

在给定待分类文本中,贝叶斯分类器选择后验概率最大的NB C 为该文本所属类别,据(3)式、(4)式得:arg max ()(/)NB i j i jC P C P w C =∏=arg max ()(/)j i j w jP C P w π∏ (6)式中j w π代表j w 的父节点集。

增加有向边后j w π具有两种形式:j w π没有非类父节点和j w π有一个非类父节点。

因此要计算(6)式就需要估算出三个值:()i P C 、(/)j i P w C 、(/,)j i s P w C w 。

前两个值在上文中已经说明,而(/,)j i s P w C w 为在i C 类中,s w 出现时j w 的概率。

因此这里就考虑了两个词之间的关系。

(/,)j i s P w C w 的值等于i C 类文本中出现s w 的文本中j w 的总词频与i C 类中出现s w 的文档的总词频的比率。

即:1111(/)(/)(/,)(/)(/)j j Dw i k k s k j i s V Dw i k k s s k N B C d B d w P w C w V N B C d B d w ===+=+∑∑∑ (7)式中(/)k s B d w ={0,1},1表示s w 出现在文本k d 中,0表示s w 不出现在文本k d 中。

2 实验结果目前,人们最常用的评价分类性能的指标是查准率(精确率)和查全率(召回率)。

查准率是指分类器正确判别为该类的测试样本数与分类器判别为该类的测试样本总数的比率。

查全率是指分类器正确判别为该类的测试样本数与该类的总测试样本数的比率。

以上两个指标体现了文本分类质量的两个方面,需要综合考虑,因此有F1测试作为综合评估指标。

F1测试值=2××+准确率召回率准确率召回率实验选取中文自然语言处理开发平台提供的语料库的文章,选择六类文本进行测试,分别是计算机、农业、经济、艺术、环境、政治,共1800篇,每类300篇。

其中从每类中选取200篇为训练样本文档,余下100篇为测试文档。

测试结果见表1。

表1 实验结果类别 查准率 查全率 F1测试值计算机 0.92 0.77 0.84 农业 0.70 0.82 0.75 经济 0.69 0.82 0.75 艺术 0.85 0.78 0.81 环境 0.85 0.75 0.80 政治0.78 0.81 0.79从表1可看出,在所取测试集中,平均查准率达到0.80,平均查全率达到0.79,平均F1测试值达到0.79。

基本达到了文本分类的效果。

3 结束语上述朴素贝叶斯分类算法基本实现了文本分类,但是还存在着一些问题。

首先TAN 结构虽然考虑了两两属性间的关联,但文本中属性之间可能存在的其他更多的关联并没有考虑到,因此适用范围还是有一定的局限性。

还有在计算特征词属于某一确定的类的概率时,由于训练集的选择不同,或者训练集不足够大,这会有某些不常见的特征词在训练库中不出现,而朴素贝叶斯判别式是一个乘积的值,这样就会对结果影响很大。

这些问题在以后的工作中还需要不断的改进。

参考文献[1]陈叶旺,余金山.一种改进的朴素贝叶斯文本分类方法[J].华侨大学学报(自然科学版).2011.[2]陈欣,张菁,李晓光.一种面向中文敏感网页识别的文本分类方法[J].测控技术.2011.[下转43页]2012.143SSL ,既保证了跨局域网的数据通讯安全,又提供开放的接口支持企业应用第三方加密软件。

SCK 使用标准C 语言开发,便于跨平台移植,目前可以支持微软的主流操作系统、Linux 和开放式UNIX 平台。

其次,采用轻量级信息发现协议(LIDP),使系统具有很好的扩展能力,可以在以后的发展中兼容MIB 等标准的定义;使用XML 格式语言定义,支持跨平台以及设备无关性;实现了信息项定义与信息项实现方法的无关性,与平台设备有关的部分;封装到实现信息项的模块内部来定义(如图3)。

4 结论通过基于分布式计算的IT 管理系统,可以有效解决企业的内部网络安全问题,降低日常维护量、并且实现对IT 资产的有效管理。

图3 LIDP 与MOM参考文献[1]吕锓.局域网实时监控系统的设计与实现.国防科技大学学报.2007.[2]秦建.Linux 下的Tcp/Ip 代码解析.北京航空航天大学出版社. 2004.[3]张立.轻量级tcp/ip 协议中安全技术研究.国防科技大学学报.2008.Research of IT Source Management System based on distributed computingYang Kaiqi, Qin XikeWuxi Keysense Tech Co,Ltd,Jiangsu,214028,ChinaAbstract:The clients’ amount of enterprise network grows faster than before, it become more and more difficult to manage thounds of client. This thesis analysis the IT management system based on distributed computing, which implement the security management of IP address, IT asset auto-management, VLAN management, software distribution and remote desktop maintenance, online network monitor. Keywords:IT Source Management; distributed computing[上接54页][3]张玉芳,陈剑敏,熊忠阳.一种改进的贝叶斯文本分类方法[J].华侨大学学报(自然科学版).2007.[4]史瑞芳.贝叶斯文本分类器的研究与改进[J].计算机工程与应用.2009.[5]王潇,胡鑫,三种分类算法的比较[J].石河子大学学报(自然科学版).2005.[6]石洪波,王志海,黄厚宽.贝叶斯文本分类方法研究[J].山西大学学报[J].2002. [7]安艳辉,董五洲,游自英.基于改进的朴素贝叶斯文本分类研究[J].河北省科学院学报.2007.[8]刘沛骞,冯晶晶.一种改进的朴素贝叶斯文本分类算法[J].微计算机信息.2010.[9]梁宏胜,徐建民,成岳鹏.一种改进的朴素贝叶斯文本分类方法[J].河北大学学报(自然科学版).2007.[10]余芳,姜云飞.一种基于朴素贝叶斯分类的特征选择方法[J].2004.Research of Bayesian Text Classifier Based On Tan Structure Wang Jingzhong, Yi LujieCollege of Information Engineering, North China University of Technology, Beijing 100144, ChinaAbstract:Naïve Bayesian is a simple and effective method that can be easily implemented text automatic categorization, but its assumption of independence does not exist in practice. In TAN structure Bayesian classification algorithm, the correlation between each two attributes was considered, the assumption of independence between attributes was reduced in a certain degree. Keywords:text classification;Bayesian;TAN。

相关主题