数据挖掘算法综述
21 年 8 OO 月
电 脑 学 习
第4 期
数据挖掘 算法综述
张君枫 ’
摘 要 : 本文主要对数 据挖掘的常用算法进行综合研究和比较 。 分析各 个算法 的利弊与适用情况
关键 词 : 数据挖掘 中图分类号 :P 0 T31
分类
预测
聚类
文献标识码: A 文章编号:0 2 2 2 ( 0 0)4 0 2— 3 10 — 4 2 2 1 0 — 10 0
S m ma y o t i i g Al o i m u r f Da a M n n g rt h
Zh ng J n e g a u fn
Ab ta t T e p p rma e h o rh n i t d fc n n d t miig ag r h s a d a a zs te a v t e d ds sr c : h a e k s te cmpe e s e su y o o l aa nn lo tm , n n l e d a a s a i v  ̄o i y h n g n -
聚类就是将数据项分 组成 多个类或簇 ,类之 间的数据 差别应尽 可能大 , 内的数据差别应尽 可能小 , 类 即为 “ 小 最
化 类 间 的相 似 性 , 大 化 类 内的 相 似 性 ” 则 。与 分类 模 式 最 原
于 场 景 的 元数 据 的 R F文 件 会 自动 转 换 , 并 通 过 R F编 D D 辑 器 显 示 。 这 样 , 户 可 以存 储 结果 , 来 还 可 以进 一 步 编 用 将 辑 , 用 户 的 视 野 在 R F文 件 里 增 加 新 的 类 和 属 性 , 而 从 D 从 为 现 今 We 可 用 的多 媒 体 元 数 据 做 出贡 献 。 b上
5 结束 语
语义 We 不 断增长 的研究和 应用意 味着 需要大容 b里 量的元数据, 还有合理 的 R F存储和查询结构。目前, D 在创 建大容量音乐元数据库 已进 行了一些研 究, 由于 We 但 b上 可用乐 曲数量的不断增加 , 这些研究 的范围是局限的。 元数 据是在不断更新修改中发展的信息 。描述 的竞争应该是受 鼓励的 , 而在 线团体用户 的角色是 决定性的 。应用 R F查 D 询体系结构,根据可 用的在线资源设计 出一种在线检索和 转换音乐元数据 的应 用程序 。应用在基于上下文 的元数据 方 向上 , R F格式 的结果提供 给终端用 户 , 以 D 从而 强化语 义 We b标准和 思想 的使用 。为 了这个 目的, 需要理解基于 本体 的框架 。系统得益于 R F 定上下文 的元数据 的简单 D 特 结构和灵活性 , 能够 由用 户 自行 添加元 数据 , 任何 R F元 D
收稿 日期:0 0 0 — 6 2 1- 7 0 - }张君枫 辽 宁对外经 贸学院信 息技术系讲师 ( 辽宁, 大连 16 5 )。 10 2
正 确 的分 类 到 其 相 应 的标 号 中 1 4 1 。
关联规则的挖掘可分为两步 ,首先是通过迭代识别所有 的
频 繁 项 目集 ,然 后 再 从 频 繁 项 目集 中构 造 可 信 度 不 低 于 用 户 设 定 的 最 低 值 的 规 则 。识 别 和 挖 掘 所 有 频 繁 项 目集 是 关
现 的不 同项 之 问 的 相 关 性 。如 果 两 项 或 多 项 属 性 之 间存 在 关 联 , 么就 可 以依 据 已知 的属 性 值 预测 某 一 项 的 属性 值 。 那
新 的数据进行分类 。 训练数据集 中的数据带有类标号 , 通过 训练集 的训练 ,使得使用 分类 函数可 以把标号未 知的数据
数 据 项 划 分 到 某 个 给 定 的类 别 上 。分 类 由模 型创 建和 模 型 使 用 两 步 组 成 ,模 型 创 建 是 指 通 过 对 训 练 数 据 集 的 学 习 来 建 立 分 类 模 型 :模 型 使用 是 指 使 用 分 类 模 型 对 测 试数 据 和
的知识 , 目的是 为了生成 部分 数据 的概要, 找数据子集 其 寻 之 间关联关系与数据之 间的派生关系 ,即在 同一事件 中出
数 据 可 组 成 全 局 网络 信 息 的 部 分 ,任 何 人 都 有 给 任 何 资源 添 加 元 数 据 的能 力 。
参考 文献
[]吴波 , 1 王保保 .几种基 于内容的图像检索的方法【 _西安 : J 】 计算
机 技 术 与 发 展 ,0 6 1 6 :9 — 9 . 2 0 ,6( ) 1 1 1 5
关 联 模 式 是 反 映 一 个 事 件 和 其 他 事 件 之 间依 赖 或 关 联
联规则挖掘算法 的核心 , 也是计算量最大的部分[ 3 1 。
关 联 规 则 中 最 典 型 的 是 购 物 篮 分 析 ,在 关联 规 则 的 分
析 中有助于发现 交易数据 库中不 同商 品之 间的联 系,找出 顾客购买 的行为模式 。 分类就是通过构造 一个分类函数 ,把具有某 些特 征的
P e it n rd i co
C u tr g ls i en
1数据 挖掘 的 主要研 究 内容
数据挖掘的任务是发现 隐藏在数据 中的模式 ,可 以发 现 的模式分为两大类 : 描述型模式和预测型模式[ 2 1 。描述型 模式是对当前数据中存在的事实做规范描述 ,刻画 当前数 据 的一般特性: 而预测型模 式则是以时间为关键参 数, 对于 时间序列型数据, 根据其历史和当前的值 预测 未来 的值 。
a v ntg f t e l o i ms a l a p lc b e st a in . d a a e o h ag rt 8 we l s a p i a l Байду номын сангаас to s s h u
Ke wo d: D t Miig y r a nn a
C as c t n lsi a o i f i