当前位置：文档之家› 网络留言分类中贝叶斯复合算法的应用研究

网络留言分类中贝叶斯复合算法的应用研究

条件独立性假设，而且能够填补类别属性。
本文针对传统方法和朴素贝叶斯在网络留言分类应用中的局限性，对网络留言分类的特点进行了
系统分析和研究，提出了一种基于ＳＶＭ— ＥＭ算法的朴素贝叶斯复合智能分类算法，该算法充分融合朴素贝叶斯简单高效、ＥＭ算法对不完全数据处理的优点，将对邮件过滤关键字的缺失属性的估计值作为ＥＭ算法初始值，并计算极大似然估计完成缺失属性的填补，获取适合的最大ＥＭ收敛值和加速收
收稿日期：２０１２ — ０７ — ２６
基金项目：甘肃省教育科学“ 十一五 ” 规划课题（ＧＳ［２０１０］ＧＸ０４６）
作者简介：马小龙（１９７９一），男，圆族，甘肃临夏人，甘肃民族师范学院讲师。
４４
佛山科学技术学院学报（自然科学版）
第３１卷
敛，然后利用朴素贝叶斯分类算法对完整数据集进行分类，提高网络留言分类的精确度和性能。
１朴素贝叶斯分类技术
第３１卷第２期
２０１３年３月
佛山科学技术学院学报（自然科学版）
ＪｏｕｒｎａｌｏｆＦｏｓｈａｎＵｎｉｖｅｒｓｉｔｙ（ＮａｔｕｒａｌＳｃｉｅｎｃｅＥｄｉｔｉｏｎ）
ＶＯ１．３１Ｎｏ．２
Ｍａｒ．２０１３
文章编号：１００８ — ０１７１（２０１３）０２ — ００４３ — ０５
网络留言分类中贝叶斯复合算法的应用研究
马小龙
（甘肃民族师范学院计算机科学系，甘肃合作７４７０００）
摘要：Ｂａｙｅｓ算法在已知先验概率与条件概率的情况下进行模式分类，待分样本的分类结果取决于各类域中样
本的全体，但实际上类别总体的概率分布和各类样本的概率分布函数是不确定的。为了解决上述问题，提出了
关键词：网络留言；文本分类；Ｂａｙｅｓ）ＳＶＭ）ＥＭ
中图分类号：ＴＰ３９１文献标志码：Ａ
在２１世纪，计算机非常重要的特征是信息化、数字化和网络化，计算机网络经过近４Ｏ年的发展和完善，已经广泛应用于各个领域。网络留言已成为人们信息交流和交换的一种重要方式，它可以实现网站与客户之间及不同客户之间的交流与沟通。网络留言使用简单、方便，给人们的生活带来极大便利，但
期望最大化算法ＥＭ（ＥｘｐｅｃｔａｔｉｏｎＭａｘｉｍｉｚａｔｉｏｎ）同样有坚定的理论基础兼具稳定的特点，被广泛
应用于缺损数据、截尾数据、成群数据等不完全数据的处理，该算法不但能够填补朴素贝叶斯算法要求
一
种基于ＳＶＭ— ＥＭ算法的Ｂａｙｅｓ算法．首先利用非线性变换和结构风险最小化原则将流量分类问题转化为二
次寻优问题，然后要求ＥＭ算法对Ｂａｙｅｓ算法要求条件独立性假设进行填补，最后利用Ｂａｙｅｓ算法进行网络留言分类，提高了分类的准确性和稳定性。
就是朴素贝叶斯算法，它是一种简单而高效的基于概率统计的分类算法，在文本分类技术中有广泛的应
用，能适应信息的变化。朴素贝叶斯算法中的所有属性都参与分类，但是实际统独立性的假设极大影响了分类性能和准确度］。
大量的商业广告、色情、反动垃圾信息和病毒的泛滥浪费了网络带宽和存储空间，逐渐成为Ｉｎｔｅｒｎｅｔ上
的一个严重的安全问题，也给社会秩序造成了极大的危害＿。因此，如何帮助人们有效地选择和利用所感兴趣的信息，尽量剔除不相关信息和不良信息，已经成为一个新的研究热点Ｌ１ｊ。目前，常用的文本分类和预测方法有：１）决策树归纳分类法，其原理是以自顶向下递归的分治方法，从训练元组集和它们的相关联的类标号开始构造决策树，从而训练集递归地划分成较小的子集。２）基于规则的分类，其原理是使用一组ＩＦ —ＴＨＥＮ规则进行分类，根据规则质量的度量，如准确率、覆盖率，或者根据领域专家的建议，将规则组织成一个优先权列表，以此来激活具有最高优先权的类预测。３）基于智能统计和学习的方法。基于统计的方法有ＫＮＮ、ＳＶＭ、Ｂａｙｅｓ、Ｒｏｃｃｈｉｏ等分类算法，其中最为经典的

e商务文档

网络留言分类中贝叶斯复合算法的应用研究

相关文档推荐：