当前位置:文档之家› 垃圾邮件过滤系统

垃圾邮件过滤系统

邮件训练集 训练器(特征提取)
特征库
邮件测试集
过滤器 (把垃圾பைடு நூலகம்件标识出来)
存储过滤结果
邮件提取:利用对邮件的解码提取邮件信息,包括对测 邮件提取 试集邮件的提取和训练集邮件的提取。 特征提取:将由训练集或者测试集中的邮件,进行特征 特征提取 提取。在训练集中,把从邮件提取的特征,按照已定的 算法进行计算,再用放入特征库中来进行储存;在测试 集中,提取邮件的特征,交给下个环节处理。 在系统中,邮件阶段是通过对邮件的解码获取信息, 并将邮件转换为文本。特征提取是提取邮件的主题和邮件 体中的字符串,利用token串统计提取出的token串中各个 token出现的次数。
垃圾邮件过滤系统
1、什么是垃圾邮件?
垃圾邮件过滤
2、什么是过滤?如何过滤?
垃圾邮件的定义
垃圾邮件是指向未主动请求的用户发送的 电子邮件如广告、刊物或其他资料;或没有明 确的退信方法、发信人、回信地址等的邮件; 或者利用网络从事违反网络服务供应商的安全 策略或服务条款的行为和其他预计会导致投诉 的邮件。
算法说明
我们之所以选择贝叶斯算法,原因是由于该 算法的优点在于: 1、实现简单; 2、贝叶斯模型能够自我纠正。
特征概率的算法
对于训练集中的一个特征w: b(w)=含有特征w的垃圾邮件数量/总的垃圾邮件 的 数量; g(w)=含有特征w的合法邮件数量/总的合法邮件的 数量;
b(w) p(w) = b(w) + g(w)
p(w)是Graham方法对特征概率的估计。
特征w概率f(w)的计算:
上式中: n:含特征w的邮件数量; s:一个常数参量,通常为1; x:当n=0时,我们需要假设的常量,也是特征w的 概率,通常设为0.5;
(s* x) + (n* p(w)) f(w) = s+ n
邮件特征联合概率的算法
在过滤过程中,对于进入过滤的邮件,我们要 根据训练的结果和该邮件的特征表示,给该邮件一 个综合的判定值,即联合概率。然后根据设定的阈 值,判定此邮件是垃圾邮件还是合法邮件。 计算方法如下:
谢谢!!! 谢谢!!!
ABC …N ABC …N + (1- A )(1- B )(1- C ) … (1- N )
A,B,C,...,N代表了各个特征的在哈希表hashspamminess中的值。当邮件特征中包含以前没有从来 没有出现的特征,建议特征概率为0.4。
本垃圾邮件过滤系统的工作说明
垃圾邮件过滤系统的系统流程图 :
信息过滤所需要解决这样几个问题
1.如何获取信息。 2.信息如何进行表示。 3.根据什么样的规则和方法来处理信息。 4.信息相似度如何计算。 5.匹配规则的自动生成。 其中信息表示是系统的基础部分,信息表示 的好坏将直接影响到其他的几个方面,因为它决 定了信息处理的方法、规则的生成等。
信息过滤在文档类信息中的应用就是将文 档内容按照一定的表示方法如向量空间模型进 行整理后,采用文本分类的方法进行信息过滤。 文本分类的算法有基于概念的文本分类算法、 贝叶斯分类方法、K-最近邻接分类算法、基 于语义网络的概念推理网分类方法和向量空间 法等。我们主要采用的是贝叶斯分类方法。
垃圾邮件的防范
现在,采用的反垃圾邮件技术主要从三个方面来防范 垃圾邮件:邮件发送方、邮件传输过程、邮件接收方。采用 的主要技术有: 1、邮件服务系统的安全加固:主要措施有增强邮件服务器 的安全性、提供邮件服务安全身份认证、添加反垃圾 邮件的专用设备或插件等。 2、邮件过滤技术。主要技术有基于规则(如IP地址、域名、 邮件地址等)和基于统计的过滤方式(基于邮件内容过 滤)。 3、提高发送垃圾邮件成本,从源头上阻止垃圾邮件的产 生。主要技术有电子邮票、Challenge-Response, SPE (sender policy framework)等。
模式匹配: 模式匹配 : 接受特征提取中后的信息,根据规则数 据库中的规则,按照某种相似度计算算法计算信 息与实际需求的相关性,在达到一定的阀值后, 输出过滤的结果。 信息表示:提供对过滤后的邮件的浏览,以及对过 信息表示 滤效果的评价。 模式匹配阶段分为两个阶段:训练和测试。 训练阶段主要是训练规则库,提取spam和ham的 特征;主要分三步: 解析邮件和提取特征;
贝叶斯分类方法
贝叶斯分类算法是一种广泛应用的分类算法, 应用于文本分类时,通过计算文本属于每个类别 的概率P(cj|dx),将该文本归为概率最大的一类,计 算P(cj|dx)时利用贝叶斯公式。简单贝叶斯分类算 法即Naive Bayesian,它建立在“贝叶斯假设”的 基础之上:假设所有的特征之间互相独立。实际 上,在生活中这种独立性很难存在,但从目前的 实验结果看来,基于这个假设的简单贝叶斯分类 算法的效果很好,而且计算简单,因此在很多场 合得到适用。
建立三个哈希表:hash-good、hash-bad、 hashspamminess; hash-good存放合法邮件中提取的特征 和各特征在合法邮件中出现的次数;hash-bad存放垃 圾邮件中提取的特征和各特征在垃圾邮件中出现的次 数; 综合考虑hash-good和hash-bad,建立各特征的垃圾 邮件指示概率(spammniess probability), 存入哈希表 hash-spamminess中。
测试阶段是利用已训练完成的规则库,对邮件进行 判断。并向用户提交结果。 其过滤过程为: 对于新的邮件,提取邮件的特征,通常是最能代表 邮件内容的若干个特征(这里的特征应该是它们的垃圾邮 件指示性概率远离0.5的),通过哈希表hash-spamminess 计算这封新邮件的联合概率(combined probability)。如果 邮件的联合概率超过某个阀值,就判此邮件为垃圾邮件, 其他的为合法邮件。
Graham使用 使用Naive Bayesian过滤 使用 过滤 垃圾邮件的理论
Paul Graham于2002年8月发表了一篇文章:A Plan for Spam,在文章中Graham提议建立垃圾邮件和非垃圾 邮件单词的贝叶斯概率模型。其大体思想是,在已知的 垃圾邮件中,一些单词出现的频率较高。运用一些众所 周知的数学知识,对于每个特征,可以生成一个“垃圾 邮 件指示性概率” (spamminess probability)。根据邮件中所 包含的一组词,可以用另一个简单的数学公式来确定文 本邮件的“整体垃圾邮件概率”(combined probability), 也 称邮件的联合概率。
过滤
过滤就是分类。 信息过滤(Information filtering)是一个十分广泛 的概念。有人定义信息过滤为:根据用户的信 息需求对动态数据流进行过滤,仅仅把满足用 户需求的信息传送给用户,以提高获取信息的 效率。这种定义主要是着重于信息检索方面, 他们主要研究的问题在于信息的自动分类、文 本文摘自动化,以及Web数据的检索等问题。
相关主题