当前位置：文档之家› 高维数据相似性度量方法研究_谢明霞

高维数据相似性度量方法研究_谢明霞

综合利用属性分布相似性、空间距离以及交叉最近邻表三种度量方法 , 提出了一种综合有效的高维数据相似性度量方法。但是 , 该方法中所涉及的相似性度量公式复杂 , 导致在海量高维数据聚类过程中的时间复杂度较高 , 实用性不强。文献[ 5] 提出了一种基于共享最近邻的高维聚类算法 , 其算法思想在于度量各数据间最近邻数据对象中的交叉情况 , 交叉程度越大 , 数据间的相似度也越大 , 但是 , 该文中数据对象相似性度量公式不能完全反映数据间的相似程度。文献[ 6 , 7] 提出了一种基于地球引力模型的属性数据相异度计算方法 , 其中文献[ 6] 将地球引力模型中涉及到的距离值改为对象属性间的信息熵 , 避免了高维空间中距离的计算。文献[ 8] 提出了投影最近邻的概念 , 它根据各点用一个准则函数挑选相关的维 , 仅利用这些相关的维计算其它点与该点的相似度。由于将原高维空间中相似度度量问题转化成在低维子空间中的相似度计算 , 因此这种方法可以继续采用原低维空间中的距离计算函数。但是 , 该方法中用来选择各点的相关维的质量准则函数难以确定。文献[ 9] 提出了一种用于高维数据的相似度函数 Hsim( ), 该函数避免了原有的低维空间上定义的距离函数在高维空间中的不适用性 , 即随着维数的增加 , 最大和最小距离之间的对比越来越不明显 , 点与点之间的距离对比性不复存在 , 一个点到它的最远邻和最近邻的距离几乎是相等的。但是 , 该相似度函数不适于对分类属性数据的相似性度量。
1 引言
现实生活中广泛使用的大量数据 , 以及对这些数据中潜在有用的信息和知识的迫切需要促进了数据挖掘理论与技术的快速发展。聚类分析作为数据挖掘所采用的关键技
＊收稿日期 : 2009 -11-15 ; 修订日期 : 2010 -02-09
基金项目 : 国家科技支撑计划资助项目( 2007BA H 16B03) ; 国家 863 计划资助项目( 2009A A 12Z228) 作者简介 : 谢明霞( 1985 ) , 女 , 湖北武汉人 , 硕士生 , 研究方向为空间数据挖掘和 G IS ; 郭建忠 , 教授 , 研究方向为地理信息系统。通讯地址 : 450052 河南省郑州市陇海中路 66 号解放军信息工程大学测绘学院 6 系 3 队 ; Tel : 13303852026 ; E -mail : xm x0424 @yah oo . cn Address : In sti tu te of Surveyi ng and M appi ng , Inf orm at ion Engineeri ng U ni versi ty , Zhengzhou , H enan 450052 , P . R.分析而言 , 定义数据对象之间的相似度是至关重要的一步 , 相似度定义得恰当与否直接影响数据聚类的效果。针对不同类型的应用和数据类型 , 具有不同的相似度定义方法。传统的相似性度量方法有距离度量和相似系数计算。在高维空间中 , 常用的欧几里德等经典距离度量方法不能很好反映数据间的相对距离 , 即与任一对象之间的最近和最远距离的相对差异随着维度的增长将趋近于 0 。因此 , 在基于欧几里德等经典距离度量方法基础上所作的改进高维数据相似性度量方法 , 也避免不了高维空间中 “ 维灾” 所带来的问题。常用的相似系数计算方法包括 Cosine 度量、 Pearson 相关系数以及 J accard 系数等。其中 , Cosine 度量和 Pearson 相关系数适于高维空间中数值型数据的相似性度量 , 而不能用于分类属性数据相似度的计算 , 另一方面由于其计算的复杂度 , 增加了高维数据聚类的时间复杂度 , 影响了聚类的效率 , 导致基于此的高维数据聚类方法的实用性不强。 Jaccard 系数是度量两个二元变量集合的重叠程度 , 因此在使用 Jaccard 系数进行相似性度量时 , 需要将区间标度型、分类、序数、比例标度变量等转化为二元变量 , 在转化过程中必然丢失大量有用的信息。 J accard 系数可以较好地反映高维数据在属性上的相似程度 , 但不能反映其在高维空间距离上的相似程度。针对高维数据的相似性度量方法的研究 , 文献[ 3] 提出了一种对象组的相似性计算方法 , 该方法首先将高维稀疏矩阵转换为二态数据矩阵 , 根据二态数据矩阵计算对象组的相似度。由于该方法在整个聚类的执行过程中 , 只需要进行一次数据扫描 , 大大提高了算法的效率。但该方法仅适用于对具体的数据值不感兴趣的情况下 , 即可以将现实问题中的区间标度型、分类、序数、比例标度变量等转化为二态变量时 , 很大程度上限制了该方法的适用性。文献[ 4]
CN 43-1258/ T P ISSN 1007-130X
计算机工程与科学
CO M P U T ER ENG IN EERI NG & SCIENCE
2010 年第 32 卷第 5 期 V ol. 32 , No. 5 , 2010
文章编号 : 1007-130X( 2010) 05-0092-05
＊
高维数据相似性度量方法研究 Research on the Similarity M easurement of High Dimensional Data
谢明霞 1 , 2 , 郭建忠 1 , 张海波 3 , 陈科 1 XIE Ming -xia1 , 2 , GUO Jian -zhong1 , ZHANG Hai -bo3 , CHEN Ke1 ( 1. 解放军信息工程大学测绘学院 , 河南郑州 450052 ; 2. 75719 部队 , 湖北武汉 430074 ; 3. 68029 部队 , 甘肃兰州 730020) ( 1. Institute of Surveying and Mapping , Information Engineering University , Zhengzhou 450052 ; 2. Corps 75719 , Wuhan 430074 ; 3. Corps 68029 , Lanzhou 730020 , China ) 摘要 : 将低维空间中的距离度量方法( 如 Lk -范数) 应用于高维空间时 , 随着维数的增加 , 对象之间距离的对比性将不复存在。研究高维数据有效的距离或相似( 相异) 度度量方法是一个重要且具有挑战性的课题。通过对传统的距离度量或相似性( 相异性) 度量方法在高维空间中表现出的不适应性的分析 , 并对现有的应用于高维数据的相似性度量方法进行总结 , 提出了高维数据相似性度量函数 Hsim( X , Y )的改进方法 HDsim ( X , Y)。函数 HDsim( X , Y )整合了各类型数据的相似性度量方法 , 在处理数值型、二值型以及分类属性数据上充分体现了原 Hsim( 处理数值型数据、 Jaccard 系数处 X , Y) 理二值数据以及匹配率处理分类属性数据的优越性。通过有效性及实例分析 , 充分论证了 HDsim( X , Y )在高维空间中的有效性。 Abstract : T he re exists no co mpa riso n between the dista nces of the objects with the increase of dimension when the method of distance mea surement for low dimensional space is adopted in hig h dime nsio nal space .T he study of efficient methods for distance mea surement o r similarity ( dissimilarity)measurement in hig h dimensio na l space is ve ry impor tant and challeng ing .T he impro ved function HDsim( X , Y )is pr oposed to mea sure the similarity between the o bjects in hig h dimensional space through analy zing the inapplicability o f the traditio nal measurement being used in high dimensio nal space and summa rizing the e xisting methods to similarity measurement fo r hig h dimensional da ta .T he methods fo r similarity measure ment to all kinds of data have been integ ra ted by function HDsim ( X , Y ), which takes full advantag e o f the original functio n Hsim( X , Y)in dealing with nume rical data , the J accard coefficient in dealing w ith the binary data , and the matching ratio in dealing with the catego rical da ta . V alidity and case analysis demo nstr ate that the function HDsim ( X , Y)is effective in co mputing the simila rity be tw een the o bjects in hig h dime nsio nal space . 关键词 : 高维数据 ; 相似性度量 ; 属性相似性 ; 空间相似性 Key words : hig h dimensional data ; similarity measur eme nt ; attribute similarity ; spatial similarity doi : 10 . 3969/ j . issn . 1007 -130X . 2010 . 05 . 025 中图分类号 : T P18 文献标识码 : A 术之一 , 已广泛用于诸多应用领域中 , 如市场研究、模式识别、数据分析、图像处理、机器学习等。随着人类获取数据手段的逐步发展 , 大量的数据通过传感器和其它的数据采集设备源源不断地收集。在地学领域 , 随着卫星和遥感技术的广泛应用 , 日益丰富的空间和非空间数据得到收集和存储 ; 在医疗领域 , 各种医疗成像大量

e商务文档

高维数据相似性度量方法研究_谢明霞

相关文档推荐：