当前位置:文档之家› 基于概率神经网络的垃圾邮件分类

基于概率神经网络的垃圾邮件分类


过滤 ,还有带宽控制 、 贝叶斯过滤以及神经网络等方 案。 人工神经网络是一种用计算机模拟生物机制的 方法 ,由于它不要求对事物内部的机制有明确的了 解 ,系统的输出取决于输入和输出之间的连接权 , 而 连接权可以通过对训练样本的学习获得 ,因此已经在 很多领域得到了成功的应用 。概率神经网络是由 Specht博士在 1989 年提出的一种径向基神经网络的 重要变形 。它与统计信号处理的许多概念有着紧密 的联系 ,主要用于模式分类 。本文正是根据概率神经 网络的特点和已有的研究经验 ,以垃圾邮件贝叶斯分 类为参考 ,对概率神经网络在垃圾邮件过滤的应用潜 力进行了初步的研究 。
测试集 邮件数
460 296
正常邮 件数
2788 1150
垃圾邮 件数
1813 1813
垃圾邮 件比例
39. 4% 62. 0%
入层接受输入向量并格式化 ; ( 2 ) 在径向基神经元 层 ,首先计算输入向量与训练样本之间的距离 , 然后 与阈值向量相乘 , 再经过径向传递函数计算 ; ( 3 ) 在 竞争层接受第一层结点的计算结果并对属于同一类 别的输出综合 ,最后根据各输出结果的大小判断未知 向量所属类别 。如图 1 所示 。
2. 2 实验设计
1
1
ki
πv/ 2σv Ki 2
∑exp
j =1
-
( x - x ij ) T ( x - x ij )
σ2 2
其中 xij是属于类别 i的第 j个训练样本 , ki 是类 别 i中训练样本的数量 ,σi 是平滑参数 , v 是各样本 的维数 ,若先验概率未知 , 可用训练集中每个类别样 本出现频率来估计 :
正确查出的垃圾邮件数 , nL 2 > S表示被认为是合法邮件 的垃圾邮件数 。
10
计 算 机 与 现 代 化
[8]
2008 年第 1 期
2. 4 实验结果对比分析
实验一 : 训练集与测试集的比例为 9: 1, 采用交叉验证方 式 ,其中垃圾邮件占 39. 4% ,如表 2 所示 。
件数
2788 2788
错判数
879 233
W _acc
W _err
TCR 0. 2267 0. 7433
3 结束语
垃圾邮件过滤是网络信息安全研究领域的重要 组成部分 。目前的反垃圾邮件技术还不够成熟 ,不能 完全识别垃圾邮件 ,甚至会阻断正常邮件的交往 。本 文提出的采用概率神经网络进行邮件分类过滤 ,与贝 叶斯分类器相比 , 具有更好的分类能力 , 其稳定性也 得到了明显的提高 。与其他神经网络分类相比 ,其基 本优点在于它训练时间短且不易收敛到局部最小点 , 参数设置简单 。 实验中用到的数据集还仅限于英文邮件数据库 。 今后的工作希望能运用于中文的垃圾邮件过滤 。要 实现基于内容的中文垃圾邮件过滤 ,首先需要解决中 文分词的问题 ; 第二是通过对垃圾邮件的行为模式研 究 ,建立海量的垃圾邮件和正常邮件的特征库 。同时 如何进一步改进概率神经网络的特性 ,使之具有更好 的稳定性 、 泛化能力 ,也是值得研究的问题 。
πi =
ki
在具体实验过程中 , 采用交叉验证方式 , 训练集 和测试集比例为 9: 1,并与贝叶斯分类器结果进行对 比 。由于该实验数据来源于垃圾邮件数据库 ,其中垃 圾邮件比例为 39. 4% , 与现实的垃圾邮件比例状况 不太相符 ,故又设计了一组垃圾邮件比例大约为 62. 0%的实验 (见表 1 ) 。
fi ( x) =
2. 1 实验数据
实验数据来自于 UC I的垃圾邮件数据库 。实例 数据总共为 4601 个 , 其中 1813 个垃圾邮件 , 占 39.
4% 。每个实例由 58 个属性来描述 , 其中条件属性 57 个 ,决策属性一个 ( 1 表示垃圾邮件 , 0 表示非垃圾
邮件 ) 。 1 - 48 个属性为词出现的频率 ; 49 - 54 个属 性为特殊字符出现的频率 ; 55 - 57 个属性分别为邮 件中两个大写字母之间的平均距离 、 最长的距离以及 大写字母的个数 。实验中选取其中 55 个基于内容的 条件属性作为神经网络的输入 。
TCR 值越大表明系统稳定性越好 。本实验中取 λ = 9,即认为正常邮件被误判成垃圾邮件的错误严重
程度是垃圾邮件错判成正常邮件的严重程度的 9 倍 。 其中用 NL 表示实际的合法邮件数 , NS 表示实际 的垃圾邮件数 , nL 2 > L 表示正确查出的合法邮件数 ,
nL 2 > S表示被误判为垃圾邮件的合法邮件数 , nS2 > S表示
摘要 : 概率神经网络是由 Specht博士在 1989 年提出的一种径向基神经网络的重要变形 。本文提出了把概率神经网络用 于垃圾邮件分类 ,并通过 M atlab仿真试验与贝叶斯分类器进行比较 ,得到了比较理想的结果 。 关键词 : 垃圾邮件 ; 概率神经网络 ; M atlab; 分类器 ; 中图分类号 : TP302 文献标识码 : A
2008 年第 1 期 文章编号 : 1006 2 2475 (2008) 01 2 0008 2 03
计 算 机 与 现 代 化 J ISUANJ I YU X I ANDA IHUA
总第 149 期
基于概率神经网络的垃圾邮件分类
郑亚莉
1, 2
,王 康
3
( 1. 重庆大学计算机学院 ,重庆 400044; 2. 长江师范学院 ,重庆 408003; 3. 重庆大学网络中心 ,重庆 400044 )
C la ssify in g and F ilter in g Spa m 2ma il Ba sed on Probab ilistic Neura l Network
ZHENG Ya 2li ,WANG Kang
1, 2 3
( 1. Departm ent of Computer, Chongqing University, Chongqing 400044, China; 2. Changjiang Normal University, Chongqing 408003, China; 3. Net work Center, Chongqing University, Chongqing 400044, China; ) Abstract: The Probabilistic Neural Network is initially derived from Specht’ sModified Radial Basis Neural Network classifier and developed for nonlinear tim e series analysis . In this paper Probabilistic Neural Networks is app lied in spam - mail for classifying and filtering . And the tests result in the sim ulation experi m ent p roves that the PNN classifier can bring higher p recision and effi2 ciency than NaiveBayes Classifier . Key words: Spam 2 mail; Probabilistic Neural Network; M atlab; Classifier
0 引 言
作为互联网的第一大应用 ,电子邮件一直受到广 大网民的青睐 。但是近些年来 ,垃圾邮件问题日益严 重 。垃圾邮件不仅耗费网络带宽和计算机时空开销 , 而且会对企业的正常运作和用户的正常工作造成严 重的干扰 。中国互联网协会反垃圾邮件中心 2006 年 第二次中国反垃圾邮件状况调查表明 , 从 2006 年 3 月到 2006 年 6 月期间中国互联网用户收到的垃圾邮 件比例下 降 了 1. 98 个 百 分 点 , 但 是 仍 然 高 达 61. 99% 。中国互联网用户 ,平均每周收到垃圾邮件数量 为 17. 93 封 ,和上次调查每周收到垃圾邮件 19. 33 封 相比下降了 1. 4 封 。反垃圾邮件道路依然非常艰巨 , 而且又出现了一些新态势 。 在垃圾邮件分类中 ,分类模型是决定分类效果的 关键 。目前反垃圾邮件技术主要是黑白名单 、 关键字
从表 2 可以看出 ,正常邮件错判成垃圾邮件的数
量明显优于贝叶斯分类器 。修正正确率和 TCR 也得 到了极大的提高 ,表明概率神经网络比贝叶斯分类器 更加稳定 。 实验二 : 训练集与测试集的比例为 9: 1, 采用交叉验证方 式 ,其中垃圾邮件占 62. 0% ,如表 3 所示 。
表 3 垃圾邮件占 6210 %的实验结果对比 方法 贝叶斯 概率神经 网络 垃圾邮正常邮正常邮件 件数
参考文献 :
[ 1 ] Specht D F . Probabilistic neural networks[ J ]. Neural Net2 works, 1990, 3 ( 1 ) : 109 2 118. [2] 王雨轩 . 基于 LVQ2 神经网络及决策归纳的中文邮件过
70. 28% 29. 72% 90. 93% 9. 07%
2. 3 评价标准
通常情况下 ,用户宁肯多收垃圾邮件也不愿意丢 掉一封正常邮件 ,即是说垃圾邮件和正常邮件错分重 要程度是不一样的 。故在实验中主要参考修正正确 率和修正错误率 :
λnL 2>L + nS2> S 修正正确率 (W _acc) : W _acc = λ NL +N S 修正错误率 (W _err) : W _err = λnL 2> S + nS2>L λ NL +N S
2008 年第 1 期
郑亚莉等 : 基于概率神经网络的垃圾邮件分类
9
其实质是基于贝叶斯最小风险准则发展而来的一种 并行算法 。它采用贝叶斯规则来估计后验类别概率 P ( ci / x) ,即未知向量 x属于所有可能类别 c 的概率 。 由贝叶斯规则 , 该概率与先验概率 πi (即 : 未知向量 属于每个类别 i的比例 )和概率密度函数 fi ( x) (属于 每个类别向量的概率密度分布函数 )的乘积成正比 : P ( ci / x)∝πi fi ( x) 其中类别 i的概率密度函数如下 :
相关主题