当前位置:文档之家› 数据空间自相关性对关联规则的挖掘与实验分析pdf

数据空间自相关性对关联规则的挖掘与实验分析pdf


. 0和 9 C K J4 常用来度量时间序列相邻数值间的 U * + #! " 相关关系 ! %
空间自相关的存在! 产生的空间差异( 空间依
+ ! > ! 赖( 空间回归等* 加之属性数据与空间数据不可 + ! @ 分性* ! 使得空间关联规则的挖掘不同于一般的关
" 收稿日期 修回日期 # $ ! $ $ " ! ; # $ ! $ ! $ # < = 基金项目国家自然科学基金青年科学资金项目# 教育部留学科研基金项目# $ " $ % > $ ? $ ! ! @ # # ! " ! @ " # > A ! & ' 作者简介陈江平# 女! 湖北洪湖人! 副教授%研究方向为空间分析! 数据挖掘等%. ! A < @ $ / B C D 7 E F 9 G 7 D J C ! ; " = E 6 B ! H I
# $ + 使用文献 * 提供的改进的 * ! # $ K D 6 K D算法 I 得出一项( 二项( 对属性数据库进行关联规则挖掘!
国内外学者提出了很多方 掘中考虑空间自 相 关! 空间自相关和空间关联 法%如引入空间权重矩阵! 的 度 量 函 数! 并结合空间数据的地理位置构造 通过直观的方法来发现 5 6 K 6 G 6 D图! O 9 7 C Q G C U 图! * + < 空间关联规则 ! % 或者将空间信息泛化后转化成 属性关系数据库! 将空间自相关用数据的形式表 达! 然后采用属性关联规则的挖掘算法进行挖 掘
* + ! ?
分类的依据是类 %再是将空间数据进行分类!
标签属性! 即类的唯一标识! 继而用决策树等办法 将空间数据库的目标以叶子节点的方式置于各类 上! 根据决策树得到空间关联规则
* + ! A
%
将空间数 据 泛 化 为 属 性 数 据 的 过 程 中 ! 数据 之间的空间 关 系 可 能 会 被 削 弱 或 者 忽 略 % 当 数 据量很大时 ! 通过图表等直观的方式进行空间关 联规则的挖掘显然不现实 % 采用决策树的方式进 行挖掘时 ! 类标签属性的选择决定了类的属性 ! 也 就是分类的结果 ! 决策树选择的 失 误 会 极 大 影 响 关联规则挖掘的结果 % 本文通过对同一数据集进 行两种方法 # 即空间相关性的分析法和空 间 关 联 规则挖掘方法 $ 的实验 ! 将结果进行对 比 ! 讨论空 间自相关 对 空 间 关 联 规 则 挖 掘 的 指 导 作 用 及 影 响%
下载% 实验数据是以 3 其存 L N 文件的形式存储的! 储属性数据的是 O \ , 文件% 使用 * K D 6 K D算法进 I 行挖掘时! 数据源要从 O \ , 格式的文件转换为 . ] / 生成的文件中! 每一行代表一个 4 . + 工作表格式! 共! 而第 ! 列为花粉热发病数目 # 郡! $ $ 行" F C S 9 / U 第# ! $ ! ' ^ 9 K "列为! ! # 月的气温数据 # R K C G ! H 第! 'T $ ! ' R K 9 E ! > # @列为 ! ! # 月的降水数据 # R K 第# 'T $ ! C G " R K 9 E " ; " ! 列为 ; 中植被类型覆盖 H 率的数据# 即耕地( 阔叶林( 针 $ ! 7 C G T Q J 9 !7 C G T Q J 9 ; 叶林( 改良草地( 山地沼泽和半天然草地! 第" # " ;
& ) ! " # ! $ 8 " < # > 3 N 8 % 8 ! $ > < 8 # $ ! ! 8 $ $ ! $ A
子的相互关系与作用的规律% 构成地理现象的各
! 引言
空间数据挖掘 # 3 O1$ 是一个从空间数据中 提取出有效的( 新颖的( 潜在有用的( 并能最终被人
+ # 理解的模式的非平凡过程* 揭示出蕴含在数据背 ! * + !
它们的关系是复杂 种地理因子都不是独立出现的! 的! 可能是相互抑制! 也可能是相互促进的% 对地 理现象的多因子分析! 有助于我们了解空间因子间
+ ; 的关联模式或者相互关系! 即空间关联规则* %但
是! 多因子交互作用识别是一个理论难题! 缺少有 效方法%目前有效的方法是王劲峰等提出的建立 地理探测器模型! 分析各因子对模型的影响! 能有
热患病人数! 以及相关影响因素数据! 主要包括& 英国# # $ ! $ $ $年各郡的花粉热患病人数数据! & ) ) ) 授权从网站 F R R V V V= 9 J T J = C E = Q W S D G T D G O C / I X
) -J R C J G O 9 J E K D R D 6 G = C J G Y @ @ @ ?下载" I I
+ ; 效识别因子间的相互关系* % 探测各因子对模型
后的客观世界的本质规律( 内在联系和发展趋势! 实现知识的自动获取! 从而提供技术决策与经营决 策的依据
* + "
% 空间关联规则挖掘是空间数据挖掘
* + >
的重要内容! 其目的是发现现实世界中空间对象之 间的有趣的关联模式或相互关系 一般形式是&
陈江平 黄炳坚
# $ 武汉大学遥感信息工程学院! 武汉 > " $ $ < A
摘要传统的空间关联规则挖掘 ! 一般是使用属性关联规则的挖掘算法 ! 对空间数据进行泛化处理 ! 不考虑空间 也没有考虑空间自相关与空间关联规则的关系 % 本文运用改进的 * 数据的空间自相关性 ! K D 6 K D算法对某一数据 I 并对同一数据进行空间自相关分析 ! 比较两种方法反映的属性的相关性 ! 探讨了数据的 进行空间关联规则挖掘 ! 空间自相关性对空间关联规则挖掘的影响 % 论文采用 # 降 $ $ $ 年英国的 L* M , . 5 . 患病数据集和当时的气温 ( 即* 发现二者的结果中 雨数据作为实验数据 % 采用两种方法处理相同的数据集 ! K D 6 K D方法和空间自相关方法 ! I 证明了通过研究数据的空间自相关性也能获得准确的关联规则 ! 且数 所得的一项关联规则和二项关联规则一致 ! 据的空间自相关性对关联规则的挖掘存在作用和影响 % 如何定量度量一元空间自相关对空间关联规则的影响 ! 以及利用二元空间自相关结果作为空间关联规则候挖掘的候选频繁项集 ! 进而提高挖掘效率是本文的进一步工 作% 关键词空间自相关" 关联规则挖掘" 空间数据挖掘" * K D 6 K D I
则挖掘是空间数据挖掘的一个重要组成部分% 其
! ! ! # , ! " #$ ! $ # , $ % ! ! ,! ! ! ,! ! ! # ! "! $ ! $ # $ % 是空间 谓词 !
和非空间谓词的 集 合! 其中至少有一个是空间谓 词" 令 ! #! 称为规则的前件" 令 ! # "! ! ,! 称为规则的后件! $#$ ! # ,$ %! !$#&" $ $ ! 'P是规则的支持度 # J Q 6 K R (P 表示规则的置 I I * + @ 信度# $ % E 6 G S D T 9 G E 9 空间关联规则本质上也是地理现象的多个因
% 空间关联规
的贡献率能从庞大的空间数据库中提取有用的空 间关联规则% 如何衡 量 影 响 地 理 现 象 的 各 因 子 的 关 系 呢定性的有& 地理学第一定律地表所有事物和现象在 距离越近! 关联程度就越强! 距 空间上都是关联的!
+ <? % 定量的衡量方法一 离越远! 关联程度就越弱* * + * + A! $ ! 般有 1 和等方法%1 . . . 6 K C G J 0 9 C K J4! 6 K C G J U
!期
陈江平 等& 数据空间自相关性对关联规则的挖掘与实验分析
! ! !
图! 技术路线图
, D 8 ! 6 K W S 7 6 VB C Z X I
# $ ! 英国 # # $ $ $ 年各郡的气温数据 # ! ! #月$ 授权从网站 F 下载 " & ) ) ) R R V V V= B 9 R 6 S S D E 9 = 6 K = Q W I X
& ) ) ) ) ) ! A # = ! < ! = ! @ " = # ! " J 9 E R D 6 G J J 9 6 7 E B # $ $ $ = F R / R I # $ B 7 4 9 G R K 9S 6 K. E 6 7 6 [L T K 6 7 6 WV 9 : J D R 9 X U U X U'
! ! $
地 球 信 息 科 学 学 报 # $ ! !年
+ ! ; % 在空间关联规则挖 系数据库的关联规则挖掘*
性! 从而知道对主变量影响最大的变量! 在进行关 相关系数较大的变量间的关系! 往 联规则挖掘时! 定义 往是感兴趣的空间关联规则% 按照这个思路! 一个主变量! 通过空间自相关分析! 找出对因变量 可得到& 影响大的变量! 形成感兴趣的空间关联规则" # $ ! 为关联规 则 的 进 一 步 挖 掘 提 供 频 繁 二 项 # $ # 集% 最后可通过扫描数据库! 验证所得到的空间关 联规则的支持度与置信度% 论文通过两种不 同 的 方 式 ! 对同一数据集进 行空间关联规则挖掘和空间相 关 性 分 析 ! 旨在研 探 究空间自相关在空间关联规则 挖 掘 中 的 作 用 ! 讨空间关联规则挖掘时的属性变量之空间自相关! 以及将二元空间相关的结果作为空间关联规则挖 掘的先验知识! 以提高传统的空间关联规则挖掘的 效率%
相关主题