当前位置:文档之家› 通用数据挖掘平台设计与实现

通用数据挖掘平台设计与实现


中图分类号 : P 1 . T 3 31 3
文献标识码 : A
文章编号 :6 313( 0 2)20 1—2 17 —1 12 1 0 — l40 的方式叙述数据信 息称为描述式数据挖掘 ;通过建立模型并 预测数据集行为的表述称为猜测式数据挖掘。
1数 据挖 掘 的基本 理论
11 数据挖 掘 的概念 .
() 2 神经网络方法 : 神经网络模型分为 b p反 向传 播模 型、
用于模式识别和分类预测 的神经网络模型等等 。因其本身的
白适应性、 分布存储和并行处理特性较适合数据挖掘的研 究,
越 来 越 受 到 人 们 的青 睐 。
() 3粗集方法 : 不需额外信息 , 数据依赖程度较 小, 法简 算
决 策 中 的实 际应 用 作 用 。
() 3 数据转换 : 通过数据规格化处理等方式将筛选 的数据 转换成适合数据挖 掘平 台适用 的数据形式; () 4 数据消减: 将转化后 的数据通过维度消减和数据压缩 等方式减小数据规模 以保证研究数据 的质量。
23 数据挖 掘方 法 .
数据挖掘平 台的挖掘原理基 于以下几种方法: () 1遗传算 : 基于生物遗传原理的全局化搜索算法 。 具有 易结合、 隐含并行 . b等特 点。不足是次算法 较为复杂 , 较早收
单且 易于操作 。关系数据库管理系统和数据仓库管理系统的 发展为粗集方法的应用奠定了坚实 的基础 。用集合论作为粗 集 方法 的计算基础难 以处理连 续的数据信息 。
() 盖 正 例 排 斥 反例 法 : 4覆 比较 典 型 的有 a l 、q 5算 法 , q 1a l
2 数 据挖 掘 平 台的设计 与实现
数据; () 2 数据集成 : 将来 自多个源 的数据进行合并形成完整的 数据集合;
I2 数 据挖掘 工具 的发 展过 程 .
数据挖掘工具经历了独 立数据挖掘软件 、横 向数据 挖掘 工具集和纵 向数据挖掘解决方案三个阶段 。数据挖掘软件早 期, 虽然对 数据 算法有相 当的了解 , 但仍然离不开对大量数据 的处理工作 。到 了第二个阶段,数据挖掘工具提供 了多种通 用算法 并实现 了数据的转换和可视化。而 到了近期 ,数据挖 掘提供 了针对特定应用系统的解决方案,极大地发挥 了其在
数 据 展 现三 个 步骤 。
通过覆盖所有 正例 、 排斥反例 的方式来寻找规则 。 () 5 决策树方法 : 通过数据分类 从中筛选 出有利用价值的 数据信息, 此方法 简单便捷 、 速度快, 适合大量数据 的处理工
作 。较 有 代 表 的便 是 著名 的 i3算 法 。 d
数据回集主要指将 外部数据从外部脱机存储介质和联机 事务处理系统中导入 数据仓库 的过程 。汇集过程 中包括对 数 据 的复制、 转换 、 调度和监控等 工作流程 。 数据的存储与管理是数据仓库 的主要工作任务 ,数据仓 库把不 同来源的数据 放在 一起 , 解决这些数据的冲突 问题 , 它
2 1 年 第 2 期 02 ( 总第 18 期 ) l
信 息 通 信
I ORM AT ON & COM M UNI NF I CAT1 0NS
2 2 0l
( u . N 1 8 Sm o 1)
通用数据挖掘平 台设计 与实现
王青峰 , 翟永刚 , 林 楠
( 天津 军事 交通学院教育技 术中心 , 天津 3 0 6 ) 0 1 1
敛 问题还 有 待解 决 。
13 数据 仓库 .
数据仓库 ( aaWaeo s) D t rh ue 作为一种数据 存储和组织技 术, 为数据挖掘提供 了广泛的数据源和支持平 台, 是由决策支 持系统的衍 生产 品。反过来数据挖掘为数据仓库提供了更广 泛 的技术支持和更高的决策支 持。数据仓库是数据挖掘平台 的重要组成部分 ,它的产 生从侧面反映 了决策者从基本事务 的处理到信息战略决策分析的转变 。
供了决策支持, 是数据库技术 、 统计学和人工智能技术交叉 的 学科。从商业角度来说 , 数据挖掘主要体现在对大量业务数 据进行处理分析 , 为商业决策者提供有价值的数据信息 。基 于这种需求, 数据挖掘一直是各个领域学者争相研究的热点。
下 4个 步骤 :
() 1数据清洗 : 包括增补遗漏的数据属性 , 识别和修改异常
摘要 : 数据挖掘平 台的实现 为决策管理提供 了清晰明确的价值信 息, 通过分析数据挖掘技 术的特性 , 包括数据挖掘概 述、 数据预处理与关联分析等 , 重点 阐明 了基于数据挖掘技 术采处理复杂 问题的交换 平台的研 究。
关键词 : 数据 挖 掘 ; 据 仓 库 ; 计 实现 ; 据 分 析 数 设 数
数据挖掘指将大量随机模糊的信息转变成可供决策参考
信 息 的完 整 过 程 。下 面 分 别 对 各 个 模 块 进行 展 开 说 明 。
2 1数 据挖 掘 过程 .
为避免数据挖掘 的盲 目性 ,在数据挖掘之前应该 明确数 据挖掘 的 目的, 确保数据挖掘探索问题 的预见性 。 数据挖 掘的工作流程可分为数据回集、 数据 的存储处理、
数据挖掘 是通 过数 理模 式从大量随机 的、 模糊 不完全的
22 数 据预 处理 .
数据预处理是数据挖掘 实现 的首要环节。在进行预处理 之前 ,数据挖掘平台需要先把所需要与业务对 象有 关联 的数 据信 息从数据仓库 中转移到数据挖掘库 中。数据预 处理包括

实际应用数据资料中 , 找出人们 不易察觉的有用信息和知识 的行 为过程。 数据挖掘 为从海量 数据 中提 取有价值的信息提
所 设 计 的数 据 量 大 且 随 着 时 间 的推 移 不 断积 累 。而 数 据 仓 库

() 6模糊集方法: 基于模糊集和理论的模 糊识别决策分析。 系统复杂性越高, 模糊性越强越有利于这种方法 的使用 。 . () 7统计分析方法 : 利用函数等统计学手段对数据库字段进 行归类分析, 包括常用统计 、 回归分析、 相关分析和差异分析等。 数据挖掘是平台工作的重要部分 ,根据挖掘 目的选择 合 适 的数据算法是为决策提供价值信 息的关键所在 。
相关主题