当前位置:
文档之家› 网络留言分类中贝叶斯复合算法的应用研究
网络留言分类中贝叶斯复合算法的应用研究
条件 独立 性假设 , 而 且能 够填 补类别 属性 。
本文 针对 传 统方 法 和朴素 贝 叶斯 在 网络 留言分 类应 用 中 的局 限性 , 对 网络 留 言分类 的特点 进 行 了
系统 分析 和研究 , 提 出了一种 基 于 S VM— E M 算 法 的朴 素贝 叶斯 复合 智 能分类 算 法 , 该 算法 充 分融 合朴 素 贝叶斯 简单 高效 、 E M 算法 对 不完 全数据 处理 的优 点 , 将对 邮件过 滤关 键字 的缺失 属性 的估计 值 作 为 E M 算 法初始值 , 并计算极大似然估计完成缺失属性 的填补, 获 取 适 合 的最 大 E M 收敛 值 和加 速 收
收 稿 日期 : 2 0 1 2 — 0 7 — 2 6
基 金 项 目: 甘肃省教育科学“ 十一 五 ” 规划课题( G S [ 2 0 1 0 ] G X0 4 6 )
作者简介 : 马 小龙 ( 1 9 7 9 一 ) , 男, 圆族 , 甘 肃 临夏 人 , 甘 肃 民 族 师范 学 院讲 师 。
4 4
佛 山科 学技 术学 院学报 ( 自然科 学版 )
第3 1卷
敛, 然后 利用朴 素 贝叶斯 分类算 法对 完整数 据集进行 分类 , 提高 网络 留言分类 的精 确度 和性 能 。
1 朴 素 贝 叶斯 分 类 技 术
第 3 1卷第 2期
2 0 1 3 年 3月
佛 山科学 技术 学院 学报 ( 自然 科学 版 )
J o u r n a l o f F o s h a n Un i v e r s i t y( Na t u r a l S c i e n c e E d i t i o n )
VO 1 . 3 1 No. 2
M a r .2 01 3
文章编号 : 1 0 0 8 — 0 1 7 1 ( 2 0 1 3 ) 0 2 — 0 0 4 3 — 0 5
网络 留言 分 类 中贝 叶斯 复合 算 法 的应 用研 究
马 小 龙
( 甘 肃民族师范学院 计算机科 学系, 甘肃 合作 7 4 7 0 0 0 )
摘要 : B a y e s算 法 在 已知 先 验 概率 与 条 件 概 率 的情 况 下 进行 模 式 分 类 , 待 分 样 本 的分 类 结 果 取 决 于 各 类 域 中样
本 的全体 , 但实际上类别总体的概率分布和各类样本的概率分布 函数是不确定 的。为 了解决 上述问题 , 提 出了
关键词 : 网络 留 言 ; 文本分类 ; B a y e s ) S VM ) E M
中 图分 类 号 : TP 3 9 1 文献标志码 : A
在2 1 世纪 , 计算 机非 常 重要 的特 征是 信息 化 、 数 字 化 和网络 化 , 计算 机 网 络经 过 近 4 O年 的发 展 和 完善, 已经广 泛应 用于 各个领 域 。网络 留言 已成 为人们 信息交 流 和交换 的一种重 要方 式 , 它可 以实现 网 站 与客 户之 间及 不 同客户 之间 的交流 与沟通 。 网络 留言使用 简单 、 方便 , 给人 们 的生 活带来 极大便 利 , 但
期 望 最 大化算 法 E M( E x p e c t a t i o n Ma x i mi z a t i o n ) 同样 有 坚定 的理 论 基础 兼 具稳 定 的特 点 , 被 广 泛
应用 于缺 损 数据 、 截 尾数 据 、 成 群数 据 等不 完全数 据 的处 理 , 该 算 法不 但 能够 填 补朴 素 贝叶 斯算 法要 求
一
种 基于 S VM— E M 算法 的 B a y e s 算法. 首 先 利 用 非 线 性 变 换 和 结 构 风 险最 小 化原 则 将 流 量 分 类 问题 转 化 为 二
次寻优问题 , 然后 要 求 E M 算法对 B a y e s 算法要求条件独立性假设 进行填补 , 最后 利用 B a y e s 算 法 进 行 网 络 留 言分类 , 提 高 了分 类 的准 确 性 和 稳 定 性 。
就 是朴 素贝 叶斯算 法 , 它是 一种 简单 而高效 的基 于概率 统计 的分 类算法 , 在 文本 分类 技术 中有广 泛 的应
用, 能适 应 信息 的变化 。朴 素 贝叶斯算 法 中的所有 属性 都参 与分 类 , 但 是 实际统 独立性 的假 设极 大影 响 了分类 性 能和准 确 度 ] 。
大量 的商 业 广告 、 色情 、 反 动垃 圾信 息 和病毒 的 泛滥 浪 费 了 网络带 宽 和存 储 空 间 , 逐 渐成 为 I n t e r n e t 上
的一个 严 重 的安 全 问题 , 也 给社 会秩 序造成 了极 大 的危 害_ 。因此 , 如 何帮 助人们 有 效地选 择 和利用所 感 兴趣 的信 息 , 尽 量剔 除不相 关 信息和 不 良信息 , 已经成 为 一个新 的研 究热 点L 1 j 。 目前 , 常用 的文本 分类 和 预测方 法有 : 1 ) 决 策树归 纳分 类法 , 其 原理 是 以 自顶 向下递 归 的分治方 法 , 从训 练元 组集 和它们 的相 关联 的类 标号 开始构 造决策 树 , 从而 训 练集递 归地划 分 成较小 的子 集 。 2 ) 基于 规则 的分 类 , 其 原 理是使 用一 组 I F —THE N 规 则进行 分类 , 根 据规 则质 量 的度量 , 如准确 率 、 覆盖率 , 或 者根 据领 域 专家 的建议 , 将规 则组 织成 一个优 先权 列表 , 以此 来激 活具 有最 高优先 权 的类预 测 。3 ) 基 于 智 能统 计和 学 习的方 法 。基 于统 计 的方法有 KNN、 S VM 、 B a y e s 、 Ro c c h i o等分类 算 法 , 其 中最为 经典 的