当前位置:文档之家› 关系学习中贝叶斯分类算法的比较研究

关系学习中贝叶斯分类算法的比较研究


第3 3卷
A= k k ) a 。显然如果该例子属于某一个类的概率值具有最大值 ,那么该例子就属于这个类 。根据贝叶斯定理
P = i每 ( {q == 三 c4 … ) =
都无关 , 也容易计算 。求 PA = 1 ・ ( I ., a . 厶…,  ̄af = i A= kC c 。 ) 如果属性值是独立 的, 则
朴素贝叶斯方法就是以概率密度函数为基础 , 描述分类系统 中条件属性和分类属性之间的映射关系。 从理论上讲 ,与其它所有分类算法相 比, 具有出错率最小的特点 ,因而具有广泛的应用前景。但是贝叶斯 方 法有其 自身 的限制 l一 是先 验概率定 义 困难 ;二是 实 际问题 中条件 属性 的独立 假设一 般不成 立 ,针对 贝 叶斯 分类 方法 在实 际应用 中的约束 和限制 ,许多研 究者 提 出结合粗糙 集与 贝叶斯 方法 进行分类 知识 挖掘 的 解 决方案 和 实际方 法 [ ] 3。 - 7
0 引言
数据挖掘算法是在数据 中寻找一种模式。现存的大多数数据挖掘方法都是在单一的表 中寻找模式 。而 个关系数据库一般 由几个表组成 , 而不是一个表。近几年 , 数据挖掘的算法和模式已经扩展到多关系方 面 ,而 多关 系 学 习 ( DM,MR 方 法 也称 为关 系学 习 ,是从 关 系数 据库 中寻找涉及 多表 ( MR L) 多关 系 )的 模式 。 分类是数据挖掘的一种主要的应用形式 , 其应用遍历机器学习、模式识别、统计学、神经网络、遗传
结。本文第三部分是对单关系学习中贝叶斯分类算法的比较 ; 四部分是对多关系学习中贝叶斯分类算法 第 的比较 ;最后是对本文工作 的总结与展望。
1 贝 叶斯分类算法基本 思想
给定 一个 具有 个 属 性 的数 据 集 , 设 这 个 属性 值均 为离 散值 , 假 分类 任务 是 预测 测试集 中每一个 例 子 的类别 。给定一 个具 体 的例 子 ,其属 性值 从 口到 口,该 例子 属于某 一个 类 c的概 率是 尸c c f = ・ i (- ・
将 ( 2)式 带人 ( )式 中 ,可得 到朴素 贝叶斯 分类 器所使用 的方 法 ,即 1 ¨
( 2)
a g ax r m

( 3)
其中,
表示朴素贝叶斯分类器输出的目标值 。理论上讲 ,朴素贝叶斯分类与其他所有分类算法相
比 ,具有最 小 的误分 类率 。
2 单关 系学 习中贝 叶斯分 类算法 比较
收 稿 日期 :2 1.30 0 00 .8 基金项 目:国家 自然科学基金资助项 目,编号 :6 6 3 3 ; 0 7 16 河北省教育厅资 助项 目,编号 :z0 9 2 ; 2 0 1 0 河北理工大 学 自然科 学基 金资助项 目,编号 :z 80 0 1。
9 2
河 北 理 工 大 学 学 报 (自然科学 版 )
P () c =

其 中 ,P(li C c被称 为先验 概率 ,可 以从 训练数 据 集 中计 算得 到。PA。口 , , A= k _) ( : 一 L…, ka) 与任何 的
p 。口 = =1 I ( =i = ( =。 … 口c C= P ,a c A … J )1 A [ ) C

算法 、数 据库 、专 家 系统 等多 个领域 。分 类算 法 的核 心部 分是构 造 分类器 。贝叶斯 分类 算法是 数 据挖 掘领 域 的一种 常 用 的分类 方法 ,它是 统计学 分 类方 法 ,利用 概率 进行 分类 。 目前 ,在关 系学 习 中 ,贝叶斯 分类 算 法有很 多 种 ,对这 些算 法进 行 总结 、 比较 ,指 出其优 点 与不足 , 对提 高分 类 效率有 很 大 帮助 。故本文 对 已有 的关 系学 习 中贝 叶斯分 类算 法作 了详 细 的 比较 ,并 进行 归纳 总
较 了几种基 于语 义关 系图的 贝叶斯 分类 算 法 ,重点介 绍 了 MI NB 模 型 。最后 对本 文 — MR C 工作进 行 了总 结与展 望 ,提 出进 一 步工作 方 向是研 究基 于粗 糙 集的 多关 系贝叶斯 分类算 法。
中图分 类 号 :T 3 1 P0. 6 文献 标 志码 :A
摘 要 :数 据 分类是 数 据挖掘 的主要 内容 之 一 ,通 过分析 训 练数据 样 本 ,产 生 关 于类 别 的
精 确描 述 。 贝叶斯 分类 是数 据挖 掘领 域 中一种 常用的有 效 分类 方 法。在 关 系学 习中 ,贝 叶 斯 分 类算 法有很 多种 ,对这 些算 法进 行 总结 、 比较 ,指 出其优 点 与不足 ,对提 高分类效 率 有 很 大 帮助 。 文 对 已有 的关 系学 习中 贝叶斯分 类算 法作 了详 细 的比较 , 本 并进 行 归纳 总结 。 在 单 关 系学 习 中重点介 绍 了几种 基 于粗糙 集 的 贝叶斯 分类 器和加 权 贝叶斯分 类算 法 ,并分 析 了各种 方 法的模 型 、权 值确 定 方 法、优 缺 点及 进 一步 工作 方 向。在 多关 系学 习 中主要 比
第3卷 3
第 1 期
河 北 理 工 大 学 学 报 (自然科 学版 )
J u n l f b i oi c ncUnv ri Naua S i c dt n o r a e P l eh i ie s y( trl c n e io ) o He t t e E i
v0 - 3 No. l3 1 Fe . b201 1
2 年 2月 0 1 1
文 章 编 号 : 17 .2 22 1)10 9 .4 640 6(0 10 .0 1 0
关 系学 习 申贝 叶斯 分 类算 法 的 比较 研 究

( 北 理工 大学 河
晶 ,张 春 英
理 学 院 ,河 北 唐 山 03 0 6 09)
关 键 词 :关 系学 习;贝 叶斯分 类算 法 ;单 关 系 ;多关 系 ;语 义 关 系图
相关主题