当前位置:文档之家› 基于改进朴素贝叶斯算法的垃圾邮件过滤器的研究

基于改进朴素贝叶斯算法的垃圾邮件过滤器的研究

反冲洗过滤器的特点/电力驱动,不锈钢刷式清洗,系统承压能力强;高精度压差控制设计、时间控制、手动控制清洗;钢刷拆卸、安装、维护简便易操作;相邻两次清洗,电机正反转交替运转,使不锈钢转刷寿命更长;设有电机过载保护,可有效保护电机。

控制显示界面人性化设计,操作非常简便;外表面无外露接线,安全可靠。

控制界面:数显、旋钮、开关滤网类型:金属楔型网电力驱动,不锈钢刷式清洗排污;控制方式:压差、时间、手动控制设计;控制方式:时间、手动控制设计;特殊过滤单元结构设计,坚固耐用;独特的清洗设计实现低负载、低水头、均匀排污;电控箱面板方向可满足用户要求随意调节;/product.asp?Pone=12基于改进朴素贝叶斯算法的垃圾邮件过滤器的研究作者:郑炜, 沈文, 张英鹏, Zheng Wei, Shen Wen, Zhang Yingpeng作者单位:郑炜,沈文,Zheng Wei,Shen Wen(西北工业大学软件与微电子学院,陕西,西安,710072), 张英鹏,Zhang Yingpeng(西安财经学院信息学院,陕西,西安,710072)刊名:西北工业大学学报英文刊名:JOURNAL OF NORTHWESTERN POLYTECHNICAL UNIVERSITY年,卷(期):2010,28(4)被引用次数:0次1.Zhang H Exploring Conditions for the Optimality of Naive Bayes 2005(2)2.Vangelis Metsis.Ion Androutsopoulos.Georgios Paliouras Spam Filtering with Naive Bayes--Which Naive Bayes 20063.Mehran Sahami.Susan Dumais.David Heckerman.Eric Horvitz A Bayesian Approach to Filtering Junk E-Mail 19984.Johan Hovold Naive Bayes Spam Filtering Using Word-Position-Based Attributes 20055.Zhang I E.Zhu Jingbao.Yao Tianshun An Evaluation of Statistical Spare Filtering Techniques 2004(4)6.Aris Kosmopoulos.Georgios Paliouras.Ion Androutsopoulos Adaptive Spam Filtering Using Only Naive Bayes Text Classifiers 20081.学位论文蒋良孝朴素贝叶斯分类器及其改进算法研究2009分类是数据挖掘中一项非常重要的任务,在现实生活中有着广泛的应用。

例如,根据电子邮件的标题和内容判断其是否为垃圾邮件。

构造分类器的方法很多,常见的有贝叶斯网络、决策树、基于实例的学习、人工神经网络、支持向量机、遗传算法、粗糙集、模糊集等等。

其中,贝叶斯网络正以其独特的不确定性知识表达形式、丰富的概率表达能力、综合先验知识的增量学习特性等成为众多方法中最为流行的方法之一。

<br> 鉴于学习最优的贝叶斯分类器如同学习贝叶斯网络是一个NP难问题,学习朴素贝叶斯分类器得到了广大学者的重视。

朴素贝叶斯分类器基于一个简单而不现实的假设:在给定类标记时属性值之间相互条件独立。

可最近的有导师学习表明:即便是这样一个惊奇简单且具有很强的属性条件独立性假设的贝叶斯分类器,简称为朴素贝叶斯分类器,其分类性能仍然可与决策树算法、k-近邻算法等经典算法相当。

<br> 一个自然的问题是:释放朴素贝叶斯分类器的属性条件独立性是否可以使得它的分类性能更好?为回答这个问题,学者们提出了许多改进朴素贝叶斯分类器的方法,概括起来主要可以分为三类:1)结构扩展,这一类方法用有向边来表达属性之间的依赖关系;2)属性选择,这一类方法在属性空间搜索一个属性子集;3)局部学习,这一类方法在测试实例的局部构建一个朴素贝叶斯分类器。

<br> 本文以朴素贝叶斯分类器为基本对象,研究朴素贝叶斯分类器的各种改进方法,提出了隐藏扩展的朴素贝叶斯分类器、演化选择的朴素贝叶斯分类器、动态局部的朴素贝叶斯分类器三种算法。

在许多现实的数据挖掘应用中,排列也非常重要。

因此,本文调查研究了朴素贝叶斯分类器的排列性能,并提出了一种局部克隆的朴素贝叶斯排列算法。

此外,本文还调查研究了改进朴素贝叶斯分类器的一些其他方法:属性加权方法、实例加权方法、组合学习方法,提出了一种基于相似度的实例加权的朴素贝叶斯分类算法和一种基于C4.5和NB的组合分类算法。

最后,探讨了新算法在若干实际问题的应用价值。

<br> 本文的最主要的贡献包括:<br> 1)给出了学习扩展的朴素贝叶斯分类器的算法框架、综述了改进朴素贝叶斯分类器的结构扩展方法、提出了一种隐藏扩展的朴素贝叶斯分类算法(HANB)。

HANB为每个属性结点产生一个隐藏的父亲结点,该结点对其几子结点的影响为其他所有属性结点对该属性结点影响的加权平均,其中权值的大小为属性变量之间的条件相互信息。

<br> 2)给出了学习选择的朴素贝叶斯分类器的算法框架、综述了改进朴素贝叶斯分类器的属性选择方法、提出了一种演化选择的朴素贝叶斯分类算法(ESNB)。

ESNB的适应度函数为当前朴素贝叶斯分类器的分类精度。

编码方式为二进制编码方式,二进制串的长度为原始属性的个数,二进制位“1”或者“0”分别代表属性被选择或没有被选择的状态,停止搜索的条件为演化的代数。

<br> 3)给出了学习局部的朴素贝叶斯分类器的算法框架、综述了改进朴素贝叶斯分类器的局部学习方法、提出了一种动态局部的朴素贝叶斯分类算法(DLNB)。

DLNB在训练实例集上利用留一交叉验证法来动态地选择一个最能拟合训练实例集的k值,一旦最佳的k值被学习到,它就可以被用来分类所有的测试实例。

<br> 4)综述了排列算法的研究状况、调查了朴素贝叶斯分类器的排列性能、提出了一种局部克隆的朴素贝叶斯排列算法(LCNB)。

LCNB首先运用k-近邻算法发现最接近测试实例的k个邻居,然后根据测试实例和每个邻居之间的相似度对每个邻居进行克隆,最后在增加了克隆实例后的训练实例集上构建朴素贝叶斯分类器。

<br> 5)给出了学习属性加权和实例加权的朴素贝叶斯分类器的算法框架、综述了构造组合分类器的四类方法、提出了一种基于相似度的实例加权的朴素贝叶斯分类算法(IWNB-S)和一种基于C4.5和NB的组合分类算法(C4.5-NB)。

<br> 6)探讨了新算法(HANB、ESNB、DLNB)在若干实际问题的应用价值。

2.期刊论文高俊山.郎平.孙真和.GAO NG Ping.SUN Zhen-he基于粗糙集理论和朴素贝叶斯分类算法的汽轮发电机振动故障诊断-热力发电2010,39(2)汽轮发电机组结构及振动的复杂性使其故障具有多层次性和随机性,以及故障信息不完整性等特点.对此,提出了一种基于粗糙集理论与朴素贝叶斯分类算法的汽轮发电机组振动故障诊断方法.通过粗糙集理论求取最小属性约简集,并在此基础上利用朴素贝叶斯分类算法诊断出故障概率最大的区,最后针对具体的故障设定值对该方法进行验证.实际算例结果表明,该方法能在故障信息不完整甚至丢失核心属性的情况下得到较好的诊断结果,提高了系统诊断3.学位论文罗福星增量学习朴素贝叶斯中文分类系统的研究2008随着Internet的飞速发展,文本信息成几何级增长。

为了能在海量的文本中及时准确地获得有效的知识和信息,文本分类技术受到了广泛的关注。

朴素贝叶斯分类是目前公认的一种简单有效的概率分类方法,但是它不具备增量学习的功能。

针对这种情况,本文提出改进的增量学习朴素贝叶斯算法。

本文详细介绍了增量学习思路与增量学习朴素贝叶斯算法,并设计了一个增量朴素贝叶斯中文分类实验系统。

论文的主要内容包括如下几个方面:1.描述了文本分类的一般过程,介绍了多种贝叶斯分类方法,对比研究分析其联系与差别。

2.对特征选择算法进行深入分析,提出一种结合特征项在各类别中的分布信息的改进的TFIDF特征选择方法。

实验证明改进的方法选择出的特征有更强的类别表达能力。

3.针对朴素贝叶斯分类不具备增量学习的缺陷,提出增量学习朴素贝叶斯算法。

详细介绍了增量学习思路,提出带选择性对文本进行增量学习的思想。

在此基础上提出加权朴素贝叶斯方法增量学习算法,并对算法给出了详细证明与分析。

4.设计了一个增量朴素贝叶斯中文分类实验系统,使用两个中文数据集进行实验。

实验结果表面,带增量学习的朴素贝叶斯分类方法在两个数据集上都比单纯的朴素贝叶斯分类效果要好。

4.期刊论文白似雪.梅君.吴穹.朱涛.BAI Si-xue.MEI Jun.WU Qiong.ZHU Tao一种基于概率加权的朴素贝叶斯分类-南昌大学学报(理科版)2009,33(2)朴素贝叶斯分类是一种简单而高效的方法,但是它的属性独立性假设,影响了它的分类性能.为了克服该问题,提出了一种基于概率推理的加权朴素贝叶斯分类模型.通过计算属性和类之间的相关概率和不相关概率,对属性赋予不同的权重,从而在保持简单性的基础上有效地提高了朴素贝叶斯算法的分类性能.实验结果表明,该方法可行而且有效.5.学位论文李春红使用朴素贝叶斯分类法预测果蝇蛋白质相互作用2007生物信息学(Bioinformatics)是利用计算机技术对在分子生物学等学科研究中的数据进行收集、整理和分析的一门学科。

计算机中数据挖掘(Data mining)技术是一个从大量的数据中挖掘知识的过程,是生物信息学中分析数据所需要的工具。

蛋白质的相互作用在生命活动过程中起重要作用。

本课题选择了数据挖掘中分类问题的一个算法——朴素贝叶斯分类法来预测黑腹果蝇蛋白质相互作用。

蛋白质相互作用预测的方法很多,但在过去的研究中只使用其中的某个方法来预测,而各种方法有一定的偏向性。

本文在收集了大量原始数据的基础上,选择了垂直同源性(Ortholog)、共同表达(Co-Expression)、共同生物过程(Share Biological Process)、富集结构域对(Enriched Domain Pair)作为朴素贝叶斯分类法(Naive Bayes classifier)的四个属性,这些属性值的估算有各自的算法,本文通过程序实现了这些算法。

接着使用阴阳极数据计算果蝇蛋白质相互作用的类条件概率和先验概率。

相关主题