当前位置：文档之家› 基于概率神经网络的垃圾邮件分类

基于概率神经网络的垃圾邮件分类

过滤 ,还有带宽控制、贝叶斯过滤以及神经网络等方案。人工神经网络是一种用计算机模拟生物机制的方法 ,由于它不要求对事物内部的机制有明确的了解 ,系统的输出取决于输入和输出之间的连接权 , 而连接权可以通过对训练样本的学习获得 ,因此已经在很多领域得到了成功的应用。概率神经网络是由 Specht博士在 1989 年提出的一种径向基神经网络的重要变形。它与统计信号处理的许多概念有着紧密的联系 ,主要用于模式分类。本文正是根据概率神经网络的特点和已有的研究经验 ,以垃圾邮件贝叶斯分类为参考 ,对概率神经网络在垃圾邮件过滤的应用潜力进行了初步的研究。
测试集邮件数
460 296
正常邮件数
2788 1150
垃圾邮件数
1813 1813
垃圾邮件比例
39. 4% 62. 0%
入层接受输入向量并格式化 ; ( 2 ) 在径向基神经元层 ,首先计算输入向量与训练样本之间的距离 , 然后与阈值向量相乘 , 再经过径向传递函数计算 ; ( 3 ) 在竞争层接受第一层结点的计算结果并对属于同一类别的输出综合 ,最后根据各输出结果的大小判断未知向量所属类别。如图 1 所示。
2. 2 实验设计
1
1
ki
πv/ 2σv Ki 2
∑exp
j =1
-
( x - x ij ) T ( x - x ij )
σ2 2
其中 xij是属于类别 i的第 j个训练样本 , ki 是类别 i中训练样本的数量 ,σi 是平滑参数 , v 是各样本的维数 ,若先验概率未知 , 可用训练集中每个类别样本出现频率来估计 :
正确查出的垃圾邮件数 , nL 2 > S表示被认为是合法邮件的垃圾邮件数。
10
计算机与现代化
[8]
2008 年第 1 期
2. 4 实验结果对比分析
实验一 : 训练集与测试集的比例为 9: 1, 采用交叉验证方式 ,其中垃圾邮件占 39. 4% ,如表 2 所示。
件数
2788 2788
错判数
879 233
W _acc
W _err
TCR 0. 2267 0. 7433
3 结束语
垃圾邮件过滤是网络信息安全研究领域的重要组成部分。目前的反垃圾邮件技术还不够成熟 ,不能完全识别垃圾邮件 ,甚至会阻断正常邮件的交往。本文提出的采用概率神经网络进行邮件分类过滤 ,与贝叶斯分类器相比 , 具有更好的分类能力 , 其稳定性也得到了明显的提高。与其他神经网络分类相比 ,其基本优点在于它训练时间短且不易收敛到局部最小点 , 参数设置简单。实验中用到的数据集还仅限于英文邮件数据库。今后的工作希望能运用于中文的垃圾邮件过滤。要实现基于内容的中文垃圾邮件过滤 ,首先需要解决中文分词的问题 ; 第二是通过对垃圾邮件的行为模式研究 ,建立海量的垃圾邮件和正常邮件的特征库。同时如何进一步改进概率神经网络的特性 ,使之具有更好的稳定性、泛化能力 ,也是值得研究的问题。
πi =
ki
在具体实验过程中 , 采用交叉验证方式 , 训练集和测试集比例为 9: 1,并与贝叶斯分类器结果进行对比。由于该实验数据来源于垃圾邮件数据库 ,其中垃圾邮件比例为 39. 4% , 与现实的垃圾邮件比例状况不太相符 ,故又设计了一组垃圾邮件比例大约为 62. 0%的实验 (见表 1 ) 。
fi ( x) =
2. 1 实验数据
实验数据来自于 UC I的垃圾邮件数据库。实例数据总共为 4601 个 , 其中 1813 个垃圾邮件 , 占 39.
4% 。每个实例由 58 个属性来描述 , 其中条件属性 57 个 ,决策属性一个 ( 1 表示垃圾邮件 , 0 表示非垃圾
邮件 ) 。 1 - 48 个属性为词出现的频率 ; 49 - 54 个属性为特殊字符出现的频率 ; 55 - 57 个属性分别为邮件中两个大写字母之间的平均距离、最长的距离以及大写字母的个数。实验中选取其中 55 个基于内容的条件属性作为神经网络的输入。
TCR 值越大表明系统稳定性越好。本实验中取 λ = 9,即认为正常邮件被误判成垃圾邮件的错误严重
程度是垃圾邮件错判成正常邮件的严重程度的 9 倍。其中用 NL 表示实际的合法邮件数 , NS 表示实际的垃圾邮件数 , nL 2 > L 表示正确查出的合法邮件数 ,
nL 2 > S表示被误判为垃圾邮件的合法邮件数 , nS2 > S表示
摘要 : 概率神经网络是由 Specht博士在 1989 年提出的一种径向基神经网络的重要变形。本文提出了把概率神经网络用于垃圾邮件分类 ,并通过 M atlab仿真试验与贝叶斯分类器进行比较 ,得到了比较理想的结果。关键词 : 垃圾邮件 ; 概率神经网络 ; M atlab; 分类器 ; 中图分类号 : TP302 文献标识码 : A
2008 年第 1 期文章编号 : 1006 2 2475 (2008) 01 2 0008 2 03
计算机与现代化 J ISUANJ I YU X I ANDA IHUA
总第 149 期
基于概率神经网络的垃圾邮件分类
郑亚莉
1, 2
,王康
3
( 1. 重庆大学计算机学院 ,重庆 400044; 2. 长江师范学院 ,重庆 408003; 3. 重庆大学网络中心 ,重庆 400044 )
C la ssify in g and F ilter in g Spa m 2ma il Ba sed on Probab ilistic Neura l Network
ZHENG Ya 2li ,WANG Kang
1, 2 3
( 1. Departm ent of Computer, Chongqing University, Chongqing 400044, China; 2. Changjiang Normal University, Chongqing 408003, China; 3. Net work Center, Chongqing University, Chongqing 400044, China; ) Abstract: The Probabilistic Neural Network is initially derived from Specht’ sModified Radial Basis Neural Network classifier and developed for nonlinear tim e series analysis . In this paper Probabilistic Neural Networks is app lied in spam - mail for classifying and filtering . And the tests result in the sim ulation experi m ent p roves that the PNN classifier can bring higher p recision and effi2 ciency than NaiveBayes Classifier . Key words: Spam 2 mail; Probabilistic Neural Network; M atlab; Classifier
0 引言
作为互联网的第一大应用 ,电子邮件一直受到广大网民的青睐。但是近些年来 ,垃圾邮件问题日益严重。垃圾邮件不仅耗费网络带宽和计算机时空开销 , 而且会对企业的正常运作和用户的正常工作造成严重的干扰。中国互联网协会反垃圾邮件中心 2006 年第二次中国反垃圾邮件状况调查表明 , 从 2006 年 3 月到 2006 年 6 月期间中国互联网用户收到的垃圾邮件比例下降了 1. 98 个百分点 , 但是仍然高达 61. 99% 。中国互联网用户 ,平均每周收到垃圾邮件数量为 17. 93 封 ,和上次调查每周收到垃圾邮件 19. 33 封相比下降了 1. 4 封。反垃圾邮件道路依然非常艰巨 , 而且又出现了一些新态势。在垃圾邮件分类中 ,分类模型是决定分类效果的关键。目前反垃圾邮件技术主要是黑白名单、关键字
从表 2 可以看出 ,正常邮件错判成垃圾邮件的数
量明显优于贝叶斯分类器。修正正确率和 TCR 也得到了极大的提高 ,表明概率神经网络比贝叶斯分类器更加稳定。实验二 : 训练集与测试集的比例为 9: 1, 采用交叉验证方式 ,其中垃圾邮件占 62. 0% ,如表 3 所示。
表 3 垃圾邮件占 6210 %的实验结果对比方法贝叶斯概率神经网络垃圾邮正常邮正常邮件件数
参考文献 :
[ 1 ] Specht D F . Probabilistic neural networks[ J ]. Neural Net2 works, 1990, 3 ( 1 ) : 109 2 118. [2] 王雨轩 . 基于 LVQ2 神经网络及决策归纳的中文邮件过
70. 28% 29. 72% 90. 93% 9. 07%
2. 3 评价标准
通常情况下 ,用户宁肯多收垃圾邮件也不愿意丢掉一封正常邮件 ,即是说垃圾邮件和正常邮件错分重要程度是不一样的。故在实验中主要参考修正正确率和修正错误率 :
λnL 2>L + nS2> S 修正正确率 (W _acc) : W _acc = λ NL +N S 修正错误率 (W _err) : W _err = λnL 2> S + nS2>L λ NL +N S
2008 年第 1 期
郑亚莉等 : 基于概率神经网络的垃圾邮件分类
9
其实质是基于贝叶斯最小风险准则发展而来的一种并行算法。它采用贝叶斯规则来估计后验类别概率 P ( ci / x) ,即未知向量 x属于所有可能类别 c 的概率。由贝叶斯规则 , 该概率与先验概率 πi (即 : 未知向量属于每个类别 i的比例 )和概率密度函数 fi ( x) (属于每个类别向量的概率密度分布函数 )的乘积成正比 : P ( ci / x)∝πi fi ( x) 其中类别 i的概率密度函数如下 :

e商务文档

基于概率神经网络的垃圾邮件分类

相关文档推荐：