当前位置：文档之家› 基于改进贝叶斯的垃圾邮件过滤系统设计与实现

基于改进贝叶斯的垃圾邮件过滤系统设计与实现

埘＾＝Ｐ（眠ＩＧ）＝———菥生面ｉ————一Ｗｌ＋乞乞Ｎ（Ｗ。，Ｓ｛）口＝１ｉ＝１
其中Ｐ（形ｌＧ）是矽在Ｇ中出现的比重。
ＩＤＩ（训练垃圾邮件时，为以一；训练正常邮件时，等于ｋ）
是该类的训练样本数，Ⅳ（形，Ｓ）为词形在Ｓ中词频。Ｊｙｌ为总词里曼
数，乞乞Ｎ（Ｗ。，Ｓ。）为该类所有词的词频和。
ｄ＝１ｉ＝１
图１贝叶斯分类器
对于这样的一个贝叶斯分类器，若有某一待分类的样本Ｄ，其分类特征值为并＝（并。，戈：，…，‰），则样本Ｄ属于类别Ｇ的概率为Ｐ（Ｃ＝ＣｋＩＸ＝ｘ），因而样本Ｄ属于类别Ｇ的条件要满足式（１）：
Ｐ（Ｃ＝ＣｋｌＸ＝ｘ）＝Ｍａｘ｛Ｐ（Ｃ＝Ｃ。ＩＸ＝ｘ），…，Ｐ（Ｃ＝ｃｍⅨ≈）Ｊ而由贝
叶斯Ｐ公（ｃ式－ＧⅨ础）＝—Ｐ（Ｘ—＝ｘ可ｌＣ＝压Ｃｋ）广Ｐ（Ｃ＝Ｃｋ）
基于内容的过滤有关键字匹配和分类算法的方法。关键字匹配是将垃圾邮件中可能含有的一些关键字放到文件中，当来了一份新邮件时，匹配此信邮件中是否含有那些
基金项目：国家８６３资助项目“计算机病毒防范计划”（编号：８６３一１０４棚２－０１）
作者简介：丁文斌（１９８２－），硕士。李斌，副教授。罗浩，博士。
万方数据
此方法将知道的一些经常发送垃圾邮件的ＩＰ、域名写入一个黑名单中，在以后服务器接受邮件时，将发送邮件机器的ＩＰ或域名和此黑名单匹配，如果在黑名单中，则拒绝接受。
国外用的比较多的是实时黑名单技术，它是基于ＩＰ、域名等的过滤方法的扩展，在线的查询向本邮件服务器发送邮件的机器的ＩＰ地址是否在此黑名单中，以多人的力量提供黑名单；但是这种方法还是比较被动，只有被发现的ＩＰ才能被过滤掉，而且在中国没有机构提供此实时黑名单。
这种方法虽然过滤简单，速度很快；但是过滤效果较差，对没有发现的发送垃圾邮件的ＩＰ和域名没有作用，不灵活。１．２．２基于网络测量平台的过滤
在本地网的监测点将进出的与邮件相关的通信量汇聚成邮件流，并区分成无效邮件流、正常邮件流和异常邮件流，然后根据这３种邮件流的统计特性，检测出本地网中产生的广告邮件、垃圾邮件病毒以及异常邮件行为，并通过基于策略的响应机制实施拦截和预警。由于区分成无效邮件流、正常邮件流和异常邮件流较困难，此方法目前的过滤效果还不是太好。１．２．３基于内容的过滤
统。图３是此系统的邮件训练子系统的系统流程图；图４是此系统的邮件识别子系统的系统流程图。
邮件训练子系统是对训练库中训练样本进行预处理、提取特征、进行训练，生成邮件过滤的知识库作为邮件过滤子系统过滤时的依据。邮件识别子系统对未知邮件进行预处理、特征提取、词之间相关性处理、按照过滤知识库算出概率，得出过滤结果。
图３邮件训练子系统流程图
图４邮件识别子系统流程图下面介绍邮件过滤系统中各步的关键技术和主要的方法：
４．１邮件预处理根据ＲＦＣ８２２及ＭＩＭＥ协议对邮件进行解析，主要对邮件
格式的解析和对邮件内容的解码；得出邮件的主题和内容；对于中文邮件，词与词之间没有明显的分隔符，因此必须对邮件内容进行分词，为下一步特征提取作准备，该系统的分词用最大正向匹配。４．２特征提取
４．４词之间相关性处理该系统是将邮件内容视为句子的有序集合，句子内部的词
基于改进贝叶斯的垃圾邮件过滤系统设计与实现
丁文斌李斌罗浩（哈尔滨工业大学国家网络信息安全重点实验室，哈尔滨１５０００１）
Ｅ－ｍａｉｌ：ｄｉｎｇｗｅｎｂｉｎ＠ｐａｃｔ５１８．ｈｉｔ．ｅｄｕ．ｃａ
摘要该文设计并实现了一种基于改进贝叶斯的垃圾邮件过滤系统。传统的贝叶斯方法对邮件进行过滤时，将邮件视为一个无序关键词的向量空间，丢掉了词与词之间，句子之间的相互关系。该文则将邮件视为句间有序，句子内部关键词无序但是相关的部分有序的集合。减少传统方法处理时信息的丢失。得到的实验结果比传统方法更好。关键词垃圾邮件贝叶斯过滤器文章编号１００２—８３３１一（２００５）１８—０１２７－０４文献标识码Ａ中图分类号ＴＰ３９３．０９８
目前控制垃圾邮件的方法主要是过滤，有基于ＩＰ、域名等的过滤和基于内容的过滤。基于琅等的过滤主要用在ＭＴＡ
（邮件传输代理）模块上，由于ＭＴＡ的流量很大，基于内容的过滤将大大降低服务器的工作效率。基于内容的过滤主要用在ＭＤＡ（邮件投递代理）和ＭＵＡ（邮件用户代理）模块上。１．２．１基于ＩＰ、域名等的过滤
该文使用了基于内容的过滤，在传统的贝叶斯对垃圾邮件进行过滤的基础上，改进了此算法。从实验结果可知，改进后的方法比传统的方法具有更好过滤效果。
２贝叶斯分类器及贝叶斯邮件过滤器２．１贝叶斯分类器
贝叶斯分类器即是用于分类工作的贝叶斯网。一个贝叶斯分类器的结构如图１所示，该网中应包含一个表示分类的节点Ｃ，变量Ｃ是类别集合｛Ｃ。，ｃ２，…，Ｃ０中的一个元素。另外还有一组节点茗＝（算，，并：，…，算。）表示用于分类的特征向量。
改进的贝叶斯分类器具有以下优点：减少了大量有用信息的丢失，使分类精度提高了；在计算难度方面也是可以接受的。是时间复杂度和精度的一种很好的折中。
圈２简化贝叶斯分类器
由于对给定的分类变量Ｃ，各置是相对独立的，因而有：１２８２００５．１８计算机工程与应用
万方数据
４系统的设计与实现按照上面改进的贝叶斯方法设计了一个垃圾邮件过滤系
若有：尸（ｃ＿“ｓｐａｍ”ＩＸ剐）＜Ｐ（ｃ－“ｈａｍ”ＩＸ＝ｘ）就判断为有用邮件，否则为垃圾邮件。２．３贝叶斯过滤器的缺点由以上分析可知，原始的贝叶斯方法得到的效果最好，但是计算量很大，而且很难计算，是一个不可实行的方法；朴素贝叶斯方法易于实现，但是过多地简化使得很多对于分类很有用的信息丧失了，使得分类效果不好。下文将要介绍一种改进的贝叶斯方法。是对以上两种方法很好的折中。取各自的优点结合起来，来提高过滤的精度。
计算机工程与应用２００５．１８１２７
关键字，有就认为是垃圾邮件。这种方法的误判率很高，因为在垃圾邮件中出现的关键字在正常邮件中也可能出现，这种方法越来越少使用了。
基于分类算法的过滤是用文本分类算法来对邮件进行过滤。可以将邮件看作两类：垃圾邮件、正常邮件，将邮件看作向量空间，计算垃圾邮件的相似度来判断是否为垃圾邮件。目前主要的方法是朴素贝叶斯、ＳＶＭ、ＫＮＮ等算法。根据实验结果，朴素贝叶斯的过滤效果最好而且速度很快，许多产品已经出现，如ｆｏｘｍａｉｌ、ｏｕｔｌｏｏｋ中都有基于贝叶斯的邮件过滤功能。
特征抽取的目的就是降低向量空间的维数，提高系统的速度，提高系统的精度，防止过拟合［３１。常用的特征提取的方法有词条和类别的互信息、词条的统计、词条的期望交叉熵和文本证据权等。该系统的特征提取方法用的是改进互信息【４】。其计算公式如下：
ＲＭＩ（ｒ，Ｃｉ）＝ｌｏｇ［）
Ｋｅｙｗｏｒｄｓ：ｓｐａｍ，ｂａｙｅｓ，ｆｉｌｔｅｒ
１概述１．１垃圾邮件简介
垃圾邮件就是那些你并不希望收到，并且你也没有订阅过，但却被人利用电子邮件的特点强行塞入你的邮箱的广告、产品介绍、发财之道等内容的电子邮件。垃圾邮件一次可以发给很多人，在Ｉｎｔｅｍｅｔ上同时传送很多副本；浪费了人们的大量时间，一般人们需要至少１０秒钟来判断是否为垃圾邮件，如果每天收到几十封垃圾邮件，就得花大约十分钟的时间来处理它们，实在是比较痛苦的事情；对于拨号上网的用户，不但造成时间的浪费，还造成费用的浪费；大量的垃圾邮件充满邮箱，占用大量的系统可用空问和资源，使机器暂时无法正常工作；过多的垃圾邮件往往会加剧网络的负载能力和消耗大量的空间资源来存储它们，过多的垃圾邮件还将导致系统的ｌｏｇ文件变得很大，甚至有可能溢出文件系统，这样会给Ｕｎｉｘ，Ｗｉｎｄｏｗｓ等系统造成危害；除了系统有崩溃的可能外，大量的垃圾邮件还会占用大量的ＣＰＵ时间和网络带宽，造成正常用户的访问速度成问题；垃圾邮件占用的带宽资源，严重时会拥塞整个Ｉｎｔｅｒ－ｎｅｔ链路，中断Ｉｎｔｅｍｅｔ的部分线路的运营而造成巨大的经济损失，据ＣＡＵＣＥ组织统计，消除垃圾邮件可为全世界小型企业和个人每年节省９４０万美元；携带病毒的垃圾邮件直接威胁着整个网络系统的安全。因此，消除垃圾邮件具有非常重要的意义。１．２目前垃圾邮件处理技术
ＦｉｌｔｅｒｉｎｇＳｐａｒｅＳｙｓｔｅｍＢａｓｅｄｏｎＩｍｐｒｏｖｅｄＢａｙｅｓＤｉｎｇＷｅｎｂｉｎＬｉＢｉｎＬｕｏＨａｏ
（ＳｔａｔｅＫｅｙＬａｂｏｆＮｅｔｗｏｒｋＩｎｆｏｒｍａｔｉｏｎＳｅｃｕｒｉｔｙ，ＨａｒｂｉｎＩｎｓｔｉｔｕｔｅｏｆＴｅｃｈｎｏｌｏｇｙ，Ｈａｒｂｉｎ１５０００１）Ａｂｓｔｒａｃｔ：Ｉｎｔｈｉｓｔｅｘｔ，ｗｅｈａｖｅｄｅｖｅｌｏｐｅｄａｎｅｗｆｉｌｔｅｒｉｎｇｓｐａｍｓｙｓｔｅｍｂａｓｅｄｏｎｉｍｐｒｏｖｅｄｂａｙｅｓ．Ｗｈｅｎｕｓｉｎｇｔｈｅｔｒａｄｉ—
壮１表示此特征在本邮件中存在。根据朴素贝叶斯公式计算是
垃圾邮件的概率和不是垃圾邮件的概率，然后比较这两个概率的大小。计算公式如下（ｓｐａｍ表示垃圾邮件，ｈａｍ表示正常邮件）：
Ｐ（Ｃ＝“ｓｐａｍ”ＩＸｎ＝Ｐ（ｘＸ）ｆ＝＝ｘ型ｉＩＣ—＝＂ｓｐ—鳓’—’琢）尸蕊（ｃ＝丁“印—啪—’’～）
Ｐ（ｃ＿“ｈａｍ”ＩＸＨ－Ｐ－（ＸｘＦｘ）。＝ｌ型ｃ：—“ｈ—ａｍ”—）Ｐ瓦（ｃ＝函“ｈｒａｍ—’’一）
Ｐ（Ｘ＝ｘｌＣ＝Ｃｋ）＝ＦＩＰ（ｘＦ％ＩＣ＝Ｃ，）
ｉ＝１
则
Ｐ（Ｃ＝ＣｋｌＸ＝ｘ）＝型—１琢万一ＦＩＰ（ＸＩ＝ｘｉｌＸ＝ｘ）Ｐ（Ｃ：ｑ）
２．２贝叶斯邮件过滤器贝叶斯邮件过滤器即一种贝叶斯分类器，即将邮件分成有
用和无用的（“垃圾”）两类。先提取反映邮件是否有用的特征向量（Ｘ，，Ｘ：，…，瓦），如果Ｘｉ＿Ｏ表示此特征不在本邮件中存在，
式中的分母Ｐ（Ｘ＝ｘ）和类别Ｇ无关，因而在式子（１）中比较最大值时可以忽略，所以贝叶斯分类仅计算概率Ｐ（Ｘ＝ｘｌＣ＝ｑ）和Ｐ（Ｃ＝Ｃｋ）。其中Ｐ（Ｃ＝Ｃｋ）一般由经验得到，叫做先验概率。而Ｐ（Ｘ＝ｘｌＣ＝Ｇ）叫做似然函数【ｌ】，表示在类别ｃ。下Ｘ＝ｘ的概率，它的计算则要困难得多。特别是对于特征数ｎ较大，而且特征变量之间相依程度较高时，其计算将是极其费时的。为简化计算，可假定各个特征变量魁是相对独立的，则可采用一种简化了的贝叶斯分类器（朴素贝叶斯），其结构如图２所示：

e商务文档

基于改进贝叶斯的垃圾邮件过滤系统设计与实现

相关文档推荐：