当前位置：文档之家› 一种近似的K最近邻图算法

一种近似的K最近邻图算法

第31卷第4期江苏科技大学学报（自然科学版） Vd

.31 N

〇.4

2017 年 8

月

Journal

Jiangsu

University

Science

and

Technology

( Natural

Science

Edition

) Aug

. 2017

DOI

：10.3969/j.issn. 1673 -4807.2017.04.019

一种近似的K

最近邻图;

多重随机划分;

近似算法；近邻传播方法

中图分类号:TP393

文献标志码:A

文章编号= 1673 -4807(2017)04 -0513 -06

Approximate algorithm based on k-nearest neighbor graph

ZHOU Lei

(Department

Information

Engineering,JiLin

Police

College,

Changchun 130000,

China)

Abstract

： In view of the k-nearest neighbor ( KNN) graph problems in data mining and machine learning, an ef

ficient approximate algorithm is proposed based on the k-nearest neighbor graph. First, a random graph KNN ap

proximation is generated; the space is divided at random level to construct an approximate nearest neighbor

graph, and then approximate KNN value map they are combined to build a more accurate map; finally, neighbor

propagation of the more accurate nearest neighbor graph further improves the accuracy. Experiments are per

formed by using real data sets and high-dimensional synthetic data, and the result shows that the proposed algo

rithm has better performance than the advanced KNN method.

Key

words

： k-nearest neighbor graph, multiple random division, approximate algorithm, neighbor propagation

method

能否有效构建大数据集的

K最近邻图（一个

节点连接到其

K个最近邻居）是协同过滤、网络搜

索引擎方面近似最近邻搜索以及查询有关应用领

域的关键[14. KNN

图是一个关键的完成多降维

聚类以及其他机器学习任务的数据结构[44].

KNN

图最初级方法是通过时间成本0(

如2)

构建，其中„是数据集点数^是维数.但是这种方

法对大规模数据集的应用显得不实际.大量研究工

作已经投入到开发构建KNN

图的有效算法的工作

中.但是，目前已有的方法不能处理高复杂的计算，

也不能处理好高固有维数的数据集，即无法测得相似性.

构建近似

KNN图的方法之一就是应用近似最

近邻搜索方法.数据集的每个点被当成是一个查询

点，采用最近邻搜索算法可以检索到它的

K个最

近邻居.但是，现有方法大体都无法在搜索结构复

杂性和查询检索准确性之间实现平衡.

一种简单有效的方法就是近邻传播，它基于这

样的直觉意识，邻居的邻居也可能就是邻居，这一

思想已出现在诸多文献中.文献[7]中提出近邻传

播算法，已证实该算法通常表现良好，其方法的经

验复杂度是〇(。14)，表明算法效率非常高.不过，

收稿日期：2016 -04 -18

作者简介：邹蕾（1975—），女，讲师,研究方向为计算机应用技术.

E-

mail:290578678@

qq.

com

引文格式：邹蕾.一种近似的

K最近邻图算法[

J].江苏科技大学学报（自然科学版），2017,31(4) :513 -518.

DOI:10.3969/

issn. 1673 -

4807.2017.04.019.514

江苏科技大学学报（自然科学版)2017 年

该算法适合应用在固有维数在20左右的数据集上

面，且随着维数增加，算法逐渐失去效果.

于是，如何构造高效的

KNN图仍是一个比较

困难的问题.在此建议用一种新方法来构建通用相

似性检测所需的高质量近似

KNN图，并考虑它的

效率.首先随机生成一个

KNN图近似值

G/;然后，

创建一个分区树来构建一个近似

KNN图，再将

其与^合并，形成一个更准确的图.分区这一

步首先要随机选择

s个有代表性的对象，它们相互

独立且统一;然后分配给最近的有代表性的对象;

接着在子空间重复这个过程，直到每个空间的要素

都在阀值以下.一些类似的空间分区方法基于超平

面，或者是根据聚类来进行，与此明显不同，我们采

用有代表性的对象来划分空间.

随机分区法效率很高，可用来检测通用相似

性.首先对每个子集应用

BF(

Brute

Force)方法来

生成子图，因为同一子集里的数据点成为相邻点的

概率极高.然后，这些子图与^合并生成一个更准

确的图接着，对图应用近邻传播，进一步提

高准确率;解输出为^图；最后，对空间的随机层

次划分过程和近邻传播重复进行几次，直到获取一

个合理解决方案.文中迭代建立一个序列的解决方

案，从而得到更理想的解决方案.实验结果证明文

中的方法是高效率的.

e商务文档

一种近似的K最近邻图算法

相关文档推荐：