社会网络中的Gnutella对等网络数据集分析
姓名:鞠雪琴
学号:1401384
班级:计算机应用技术15班
Gnutella对等网络数据集分析
一.概述
本文对2002年8月24号Gnutella对等网络数据集进行分析,总共有9个Gnutella 网络快照,节点代表在Gnutella对等网络拓扑中的主机数,边代表主机之间的联系。
数据格式为TEXT,数据的详细介绍如下:
二.数据资料
将数据集用表格打开,另存为CSV格式后,就可以用Gephi打开了,Gnutella对等网络数据集在分析软件Gephi中部分节点存储的数据格式如图2.1所示,边存储的数据格式如图2.2所示。
图2.1 节点存储数据格式
图 2.2 边存储数据格式
三.概览
1.排序
将Gnutella对等网络数据集导入到分析软件Gephi中,设置度的最小尺寸为1,最大尺寸为47;按节点的度进行排序得到的网络图如图3.1所示,图中节点较大颜色较深是度
比较大的节点。
图 3.1 按节点的度排序的有向图
2.模块化与分割
按节点的块模型进行分割得到的网络图如图3.2所示,图中节点较大颜色较深是所属社
团较大的节点,且相关联的节点以及它们的边具有相同的颜色。
图 3.2 模块化分割后的有向图
四.布局
在分析软件Gephi中有6个主要的布局工具分别是:Force Atlas、Force Atlas2、Fruchterman Reingold、Yifan Hu、Yifan Hu比例、Yifan Hu多水平,下面分别介绍这六种布局方法,以及Gnutella对等网络数据集在这些布局方法中的变化情况,本小节的图都是在图3.2的基础上进行布局算法的。
1.Force Atlas及Force Atlas2
Force Atlas及Force Atlas2为力引导布局,力引导布局方法能够产生相当优美的网络布局,并充分展现网络的整体结构及其自同构特征,所以在网络节点布局技术相关文献中该方法占据了主导地位。
力引导布局即模仿物理世界的引力和斥力,自动布局直到力平衡;Force Atlas布局使图更紧凑,可读性强,并且显示大于hub的中心化权限(吸引力分布选项),自动稳定提高布局的衔接。
图4.1为运行Force Atlas布局得到的Gnutella对等网络分布图;图4.2 为运行ForceAtlas2布局得到的Gnutella对等网络分布图,其中行为替代参数选择:劝阻Hubs,LinLog模式,防止重叠,我们可以看到每个节点在向外拉升。
图4.1 Force Atlas布局图
图4.2 ForceAtlas2布局图
2.Fruchterman Reingold布局
Fruchterman和Reingold基于再次改进的弹性模型提出了FR算法。
该算法遵循两个简单的原则:有边连接的节点应该互相靠近;节点间不能离得太近。
FR算法建立在粒子物理理论的基础上,将图中的节点模拟成原子,通过模拟原子间的力场来计算节点间的位置关系。
算法通过考虑原子间引力和斥力的互相作用,计算得到节点的速度和加速度。
依照类似原子或者行星的运动规律,系统最终进入一种动态平衡状态。
图4.3 Fruchterman Reingold布局
3.Yifan Hu多水平布局
Yifan Hu、Yifan Hu比例、Yifan Hu多水平为胡一凡布局,Yifan Hu多水平布局[1]适用于非常大的图形,特点是粗化图形,减少计算量,运行速度比较快;图4.4为运行Yifan Hu多水平布局得到的网络分布图。
图4.4 Yifan Hu多水平布局(1)
图4.4 Yifan Hu多水平布局(2)——由(1)进一步得到五.网络特征值
将数据集导入到分析软件Gephi后,计算和统计网络的一些特征值:
1.基本信息:节点数6324、边数20801,网络为有向图。
2.平均度为
3.289,图5.1,5.2,5.3为网络节点度的分配图。
图5.1 平均度分配图
图5.2 入度分配图
图5.3 出度分配图
3.网络直接和平均路径长度
(1)网络直径是指网络任意两节点间距离的最大值。
Gnutella对等网络直径是20。
(2)网络平均路径长度是所有点对之间的最短路径的算术平均值。
Gnutella对等网络的平均路径长度是6.632。
Gnutella对等网络的最短路径数:13152226.
(3)介数中心度是度量一个节点出现在网络中最短路径上的频率。
Gnutella对等网络的介数中心度分布图如图5.4所示。
(4)紧密中心度是从一个给定起始节点到所有其他节点的平均距离。
Gnutella对等网络的紧密中心度分布图如图5.5所示。
(5)离心率是从一个给定起始节点到距其最远节点的距离。
Gnutella对等网络的离心率分布图如图5.6所示
图5.4介数中心度分布图
图5.5紧密中心度分布图
图5.6离心率分布图
六、分析和结论
在Gnutella分布式对等网络模型中,每一个联网计算机既是客户机同时又是服务器,因此被称为对等机,通过与相邻对等机之间的连接遍历整个网络。
Gnutella网络模型中每个对等机在功能上都是相似的,并没有专门的服务器。
通过了解网络中节点和边的含义,在分析软件Gephi中改变网络图的布局,观察不同的布局图,统计网络图的一些特征值并了解其含义,分析出Gnutella对等网络的一些特点[2]。
1.Gnutella对等网络的优势
1)拥有丰富的信息资源
任何 Gnutella网络用户能够扫描活动节点并搜索需要的信息,然后直接从这个节点上下载信息。
用户可以在他们的机器上把下载的信息共享出来,这样,请求率高的文件能够很快地在许多节点上扩散开来,从网络的各种布局方法和特征值可知,信息能够很快地在
Gnutella网络中积累起来。
2)容错和鲁棒性得到提高
Gnutella网络的多个节点间的信息复制导致高度冗余,其直接结果是提高了信息的可得性,使之为更多的用户提供服务。
另外,信息资源的分散与冗余使得网络不会产生单点失效问题,同时,针对单个服务器的“访问拒绝攻击”不再有效,所以分散式的 Gnutella 网络提高了网络的容错和鲁棒性。
2.Gnutella对等网络的不足
1)网络中对等点的查找和定位比较复杂
通过各种布局算法分析会发现,Gnutella网络中对等点的查找和定位通过扩散来实现,会很复杂。
2)网络的可扩展性不好
随着网络规模的扩大,通过扩散方式定位对等点的方法将造成网络流量急剧增加,从而导致网络拥塞。
根据 Clip2公司的一项研究显示,56K调制解调器用户在一秒之内最多处理20个查询消息。
当网络节点个数超过1000以后,这个处理极限很轻易地就被突破了,随着这部分节点的失效,将会导致Gnutella网络被分解,从而使得查询访问只能在网络的很小的一部分进行。
3)安全性不高
如同其它 P2P网络模型面临的问题一样,易遭受恶意攻击,如攻击者发送垃圾查询信息,造成网络拥塞等.
七.参考文献
[1]Hu Y. Algorithms for Visualizing Large Networks[J]. Combinatorial Scientific Computing, 2011, 5(3): 180-186
[2]黄道颖,李祖. 鹏分布式Peer-to-Peer网络Gnutella模型研究[J].计算机工程与应用.2003(05).。