当前位置:文档之家› 在端对端网络中的分布式数据挖掘_翻译

在端对端网络中的分布式数据挖掘_翻译

端对端网络中的数据挖掘端对端网络正在很多应用中获得流行,例如文件分享,电子商务,和社交网络。

很多这种应用处理大量的,分布的数据源,这些数据源可从数据挖掘中获益。

P2P网络实际上很适合分布式数据挖掘,分布式数据挖掘在有着分布的数据,计算节点和用户的环境中处理数据分析的问题。

本文提供了一个DDM的综述和P2P环境的算法,特别针对于那些以有限的通信代价使用计算基元执行数据分析的位置算法。

作者同时描述了精确的和近似的位置P2P数据挖掘算法,这些算法以一个分散的和有效通信的方式工作。

局域网,端对端网络,移动和特定网络(自组网),和其他普遍的分布计算环境经常包含分布的数据和计算资源。

在这样的网络中的数据挖掘自然地需要适当的对这些分布的资源以一种有效的,分散的方式进行利用。

需要在节点,异步计算节点和完全中心控制间大量通信的数据挖掘算法很难在这样的分布的环境中具有伸缩性。

此外,在多方应用中的隐私关注和资源问题经常指示其数据集收集在不同的站点进行分析,而不是将所有数据收集到中心站点。

大多数现成的数据挖掘产品设计成以整体的集中地应用工作,下载相关的数据到中心的地点,运行数据挖掘操作,但是这种中心的方式在很多新兴的分布数据挖掘应用中并不能很好地工作。

DDM提供了一个解决这种使用分布资源的数据挖掘问题的替代的方法。

DDM对于分布的数据,计算,通信和人力资源花费了仔细的注意力去在一个近乎理想的状态下使用它们。

分布的P2P系统对于一个新的应用种类例如文件共享,协作电影和歌曲评分,电子商务和传感器网络监督,作为一个选择的解决方案而出现。

DDM作为先进的数据数据驱动应用,正在这些领域中获得不断增长的关注本文介绍了一个在P2P网络中使用DDM技术的成果的综述。

我们的目标是表述一个在这个带有进一步发掘的指针的领域中的高水平的介绍。

我们使用一些确切地和近似的DDM算法阐明理念。

P2P数据挖掘:为什么烦恼?数据挖掘这个词一般意味着对大型数据库的分析从而发现有用的模式。

在大多数商业的应用中,数据挖掘系统在大型集中的数据仓库上以一个垂直的应用运行。

尽管这种模型对于很多应用有着很好的服务,包括客户关系管理和财务欺诈发掘,但是很多出现的领域例如P2P系统,需要新的思考。

高速的网络连接和便宜的数字存储和数据记录设备正在增强着P2P 网络的流行,例如E-Mule和Kazaa文件共享网络,这些网络都是基于没有中心服务器的点对点连接的。

这种网络主持一个大量的广泛的变化的数据组,这些数据从不同的资源收集起来,并且分布在很大数量的对等点之间。

如果集成的话,这个数据估计呈现一个对于值得挖掘的仓库,但是计算资源的限制,隐私问题等等使得很难去集成分布的数据到一个仓库中。

许多普及的Web服务使用Web挖掘应用去分析和追踪用户的点击流行为。

现在,想象一下通过对连接到P2P网络的很多用户的浏览历史进行分析的Web站点访问者(而不是主机服务)做同样事情的客户站点Web挖掘。

今天,站点访问者对于运行在服务器上的Web挖掘算法并没有直接的访问权限,但是一个客户端P2P的Web挖掘算法可以授权给访问者以点击流数据挖掘以便更高级的应用,例如P2P搜索,感兴趣的社区构成,和基于P2P的商业。

图一展示了这样一种情况,在其中应用类别通过和其他端交换信息访问URLs符合的三个主题(电影,棒球和飓风)。

明显的,在这样一个应用中,维持用户的隐私将是一个重要的问题,并且隐私保留的DDM领域可能提供一些解决方案。

尽管很多当前的P2P网络主要处理文件共享应用(例如,音乐和电影),在本文中,我们认为P2P网络是一个大的,有着点对点连接的,无服务器的网络。

这个对P2P数据挖掘开启了其他潜在的应用领域,包括Manets,传感器网络,和无中央协调站点的联合数据库。

这些应用领域在一心方面是不同的,但是所有都可能从可以在动态地,大伸缩的P2P网络中有效的操作的数据分析和挖掘算法中受益。

在P2P系统的计算环境与那些传统的中心数据挖掘算法的计算环境很不同。

一些重要的需求包括:可伸缩性。

P2P系统的建模可以包括数亿的端点,这使得可伸缩性成为数据挖掘算法最重要的要求。

计算和通信(带宽)的资源要求应该理想地从系统规模中独立,或者至少与一个随着系统规模的增长而缓慢的增长的函数关联。

有效性。

因为在同一端的数据可以在计算期间改变,算法必须递增地工作并且应该在任何时候报到局部的,自组织的解决方案。

异步性。

为P2P系统所开发的算法不应该取决于总体的同步;任何尝试去同步一个整个的网络将有可能因连接的潜在因素而失败,受带宽的限制,或节点故障。

分散。

尽管一些P2P系统仍然对于不同的需求使用中心服务器,但是下一代的P2P算法可能需要在无协调器下运行(服务器或路由器),并且在网络上计算结果,而不是将数据收集到一个单一的端上。

容错性。

考虑到多端可以在任何给定的时间内离开或加入P2P系统,算法必须是足够强健,从而使得系统可以还原端故障和随后的数据丢失。

隐私。

隐私是一个授权的因素,它可让用户贡献数据而不必害怕类似展现敏感信息的结果。

这一点在有着多方应用中是特别重要的,例如为了威胁管理,社区构造和匹配服务的P2P网络监视。

安全和信任。

如同任何大的分布式系统,安全在P2P数据挖掘中是一个重要的问题,因为正在与其他端交换的信息可以增加一个对等端对于网络的易攻击性,例如服务拒绝或自身行为。

信任管理也将可能是一个重要的问题,因为P2P系统的用户必须处理那些他们可能没有直接与其他交互的对等端。

例如,在一个移动的车载自组织网络,一个车辆可能需要与一个临近的,每一分钟都在变化的车辆群进行通信。

我们现在把我们的注意力转到P2P数据挖掘的算法上,特别集中在本地算法上,它仅通过与临近的节点通信信息而执行计算。

从一个计算的观点观察这些算法,我们区分其为确切地和近似的方法。

P2P数据挖掘的算法一个P2P算法不大可能衡量,如果它需要每个节点与在一个网络中的所有其他节点通信的话。

不幸的是,很多在P2P网络上的数据挖掘工作需要这个情况。

例如,考虑一下,一个P2P网络在其中的每个节点有一个数据元组而且我们的目标是去计算远程的矩阵(在一些公制的空间),在那里第(i,j)个入口代表着在第i个和第j个节点的元组存储的距离。

为了在一个确切的方式下计算这个,我们除了在每个可能的对等端对之间交换信息以前,很少有其他的选择。

一个解决方案是保证每个节点与在一个网络中的其他节点对话并且计算相应的最小距离,但是这个方法在有着数亿的节点的P2P网络中是不可能衡量的。

另一方面,我们可能能够粗略估计问题并且消除这个广泛的通信载入的需求。

例如,我们可以仅标识有意义的远程的矩阵的入口并且开发一个有效地P2P算法,该算法不是必须要求在每对之间交换信息。

很多其他问题是内在的可分解的并且不需要每个节点直接地与在同一个网络中的其他节点分享数据。

地点的概念在开发P2P算法中是非常重要的,因为它通过一个本地计算的集合,以一个可衡量的方式促进P2P数据挖掘。

考虑由一个图代表的一个P2P网络,在该图中节点代表对等端,边线代表它们之间的链接。

令G=(V;E)是代表网络的图,其中,V表示节点的集合,E代表它们之间的连线。

一个v∈V的顶点的α邻域是一个距离到G为α或者小于α的顶点的集合,表示为:( ; ) ( ; )其中dist(u;v)表示u和v之间的最短路径的长度,一个路径的长度以一个在其边缘的数字定义它。

令每个v∈V的节点存储一个数据集。

一个由一些顶点v发起的α位置的查询是一个其响应可通过函数(())所计算,其中()(;),并且响应大小与一个常数c绑定。

如果一个算法从不需要一个类如β>α的β位置的查询计算,则该算法是α位置的。

当我们谈到位置算法时,我们因此意味着α位置算法,在其中α是一个小的常数。

在本文中,我们可以概括地将位置算法分为以下两类:●确切地位置算法与一个中央集中的算法产生相同的结果。

●近似的位置算法提供一个与中央集中算法所产生结果的近似值。

为了比较上述两者,我们通过讨论一个多数投票的确切位置算法而开始,我们可以像使用一个基元一样使用该算法从而监视一个K均值聚类。

K均值聚类的目标是通过将对象划分成一个固定数字的簇,同时最小化所有簇到簇中心的平均距离的和。

我们然后描述近似的位置算法,我们开发了该算法从而为递增地计算一个K均值聚类提供一个供选择的解决方案确切位置算法在讨论确切位置算法时,我们假设在P2P网络上维持一个叠加的树拓扑。

当前的P2P网络通常使用如此一个叠加信息。

这个树结构保证了算法产生正常的答案,考虑到对等端仅与它们在树中的邻居进行直接的通信。

多数投票基于Ran Wolff和Assaf Schuster的工作,多数投票问题是一个很好的基元,从其中我们可以开发更多的复杂的位置算法,例如频繁项集挖掘。

在这个问题中,每个对等端保持一个数字,(0或1)和一个临界值α>0(对于所有的对等端有着同样的临界值)。

对等端力求共同的决定于是否∑是在之上,其中n是网络中的所有的对等端的数量。

我们可以很容易地将这里所描述的方法扩展到两个其他的一般的情景:●每个对等端有一实数并且收集的目标是决定是否()>。

●每个对等端有一个实数对,并且收集目标是决定是否∑(∑)>。

为简单起见,我们不在这里描述这些,但是我们将在后面讨论K均值监视的确切位置算法和频繁项集挖掘时使用它们。

对等端仅和它的邻居通信,并且使用它收到的信息去维持总体的和与网络中的节点数的估算。

基于这些估算,如果>,认为多数的临界值已经达到,否则,将认为多数未达到。

我们将这个称为的临界置信度。

令表示由从其邻居所收到的最近的和估算。

同样的,我们定义为的最近的总体节点的估算。

方法的关键在于决定是否需要去发送消息给。

它必须发送一个消息除非它可以确信那儿没有任何将改变的临界信赖的信息。

为了做这个决定,必须估算的和与数量,基于它所知道的用于确信的信息。

换句话说,就是发送的和接收的信息:,和,。

如果估算到认为临界值将达到是( ) >,如果它的自有的估算将只是加强其置信(即( ) ),它将不需要去发送信息。

在这种情况下,可以是确信的,它没有任何信息可以改变的临界值置信。

类似的理论,如果估算P不相信临界值将达到。

如果决定去发送一个消息,它将给除收到全局的和与全局的个数的以外的所有节点发送信息。

这种方法自然地对数据和网络变化是强健的。

如果它的数据改变(反转),重新计算和并且把在之前段落中解释的状态提交给所有的它的邻居。

如果一个邻居离开了网络,重新计算和,而除去计算和,并且提交相同的状态给所有保留的邻居。

频繁项集挖掘多数投票基元直接引出了一个对分散在P2P网络上的数据的频繁项集的挖掘算法。

频繁项集挖掘算法在分析集中的数据中已经得到很大的普及(例如,决定顾客的购买模式),而且我们相信它在分析P2P网络上的散布的数据方面也有有趣的应用。

相关主题