当前位置:文档之家› 数量关联规则挖掘及其典型算法分析

数量关联规则挖掘及其典型算法分析

Al o ihm s g rt
ZHANG u h a , Ch n u XU e , W i ZHANG e W i (. mp trDe at n , it nUnv ri fAi F re, a g h n 1 0 2 1 Co ue p rme t Avai ies y o r oc Ch n c u 3 0 2; o t
也包含数值属性 [ 4 1 。因为关 的 ,所 以数 量关联规 则挖掘 问题也足 解决关 系型数据库知识 发现的关键 技术之一 。数量关 联规则
挖 掘 主要 包 括 5个 步 骤 ,如 图 1 示 。 所
据对象当前 的发展现状来预测其未来的发展趋势 。
q ntttv a s ca in r l ua ia ie s o ito u e, bu lo a lz s s v r lt p c lag rt m so a iai e a s cai n r l ta s nay e e e a y i a lo h fqu nt tv s o ito e.Th s p pe rn s i t u i a rb g i
1 引言
从 数据 中识 别 出有 效的 、新 颖 的 、具 有潜 在效用 的以及 最 终 可 理 解 的模 式 的高 级 处 理 过 程 就 是 数 据 挖 掘 ( a Dt a Miig I nn)l l ,又称 数据库 中的知识发现 ( 简称 K D 。关联 规则 D ) 是数据 挖掘 中最 活跃 的研究方 法之一 ,其挖掘 目的是从 数据 集 中发现项与项之间有趣 的关联和相关关系 [ 2 1 ,这种关系不仅 可 以描 述数据对 象历史发展 的规 律性 ,而且可 以用它根 据数
2 AvainUnv ri fAi F reMitr i lt nTe h oo y Ree rhI s tt Ch n c u 3 0 2 . it ies yo r oc l ay Smuai c n lg sac n tue, a g h n 1 0 2 ) o t i o i
fradI A a o tm adv w e rset f u ni teascao l mi n . ow r Q M l rh n i st op c o atav s i i r e n g gi e hp q ti o t nu i K yw rs a nn Q atav soi i ue9 l rh e o d :D t Mii a g; u nit e A sc t nR l ‘ gi m ti ao A o t
I 壁望 —_ 兰 竺 望 卜 _ 竺 1
图 1 挖 掘 步 骤
2 数 量关联 规则
21 基 本 描 述 .
关联规则 的算 法主要集 中在生 成频繁项 集和产 生关联 规 则两步 ,将离散 区间整数化是对分 类属性 或数值 属性的离散
数据集是数 量关联规 则挖掘 的对象 ,也记为 D,D {, = ht
Ab t a t As o it n r s mi i g i a mp ra tr s a c ed o a a mi i g a d t a u n i t e a s ca in r l sr c : s ca i ul n n s n i o tn e e r h f l f d t nn , n h t q a t ai s o it ue o e i t v o mi i g d f r n i a e t d t n lB o e n a s c ain r l .h s p p rn to l n r d c s n n i e e t— ts r i o a o l a so it u eT i a e o n y i t u e mah d f a i o o t o s,se s a d p o lms o tp n rbe f
电脑 编 程 技 巧 与 维 护
数量 关联规 则挖掘及 其典型 算法分析
张春 华 ,徐 卫 ,张伟
(. 1 卒军航空大学计算机教研室 ,长春 10 2 ;2 空军航空大学军事仿真技术研究所 ,长春 10 2 ) 302 . 30 2
摘 要 : 关联 规 则 的 发 现 是 数 据挖 掘 的 一 个 重要 方 面 ,而 数 量 关联 规 则 的 发 现 不 同于 传 统 的 布 尔型 关联 规 则 。介 绍
了数量 型关联规则挖掘的方法 、步骤 以及存在的 问题 ,分析 了几种具有代表性的数量型关联规则挖 掘算法 ,提 出了 I A 算法,并对数量型关联规 则的挖掘进行 了展 望。 Q M
关键 词 :数 据 挖 掘 ; 量 关联 规 则 ’ 法 数 9 算
An lsso a t aieAso it n Rue nn n e ea y ia ayi nQu ni t scai lsMiiga dS v r l pcl t v o T

_k t 。t中的元素 i r l …P '…,1 k t L ( , )称为项 目 ( e ) =2 I m 。设 I t =
区间 ,将 其值映射 成连续 的整数标 识 。其 中数值属 性的离散
化需要选 取适 当的离 散化算法 ,决 定分 区的数 目。选取合适 的离散化 算法是这 一步的难点 。在选择算 法时 ,需要 考虑 到 数据 的分 布特点 。分区的数 目也 即分割 的粒 度 ,太大或 太小 都可 能影 响信息 的处理精度和效率 。根据 数值属性 处理 的不 同方式 ,数量关联规则挖掘可以分为数值属性 的静 态离散化 、 数值 属性 的动态离 散化以及基 于特定的技 术进行 离散化 3种
相关主题