无标度网络的争议*史定华上海大学数学系摘要:所有无标度网络都是稀疏的吗?从无标度网络随机抽样所得的子网络是否无标度呢?阿波罗尼斯(Apollonius)网络度指数要不要加1?如何判断一个实际网络是否无标度以及估计其度指数?等等,这些问题都涉及到无标度网络的界定。
通过对提出无标度网络原创论文的研究,结合概率论中的相关分布概念,我们的理解是:无标度网络不应仅限于其网络度分布为幂律分布,而应该是指其网络度分布具有幂律行为的一大类网络。
关键词:幂律分布,幂律度序列,幂律行为,无标度网络。
1. 引言自从1999年Barabási和Albert[1]在《科学》上提出无标度网络起,迄今为止,普遍认为无P k kγ−(这里记号~指渐近正比)。
由于标度网络是指度分布有(或至少近似地有)幂律形式()~人们对这个幂律形式的认识和理解不同,以及网络尺度上有限与无限的巨大差异,关于无标度网络概念的讨论一直没有停止过。
发表讨论文章的都是一些大人物或名单位,我们按时间倒叙的方式择其要者来介绍。
2011年德国马普研究所的Genio等人和美国休斯顿大学物理系的Bassler[2]在PRL上以“所有无标度网络都是稀疏的”为题阐述了他们对无标度网络的理解。
γ>。
2005年,混沌领军人物之一、牛津大学的May[3]等人这里网络稀疏是指度分布指数2在PNAS上曾抛出了一篇重磅炸弹文章“无标度网络的子网络都不是无标度网络”,以说明他们对无标度网络的看法。
更具戏剧性的是从2005年到2011年为确定阿波罗尼斯网络度指数在PRL上先后发表了三篇文章[4~6]。
其中争议的焦点是度指数要不要加1,起因是Barabási 等人[7,8]提出的确定性几何增长模型网络度指数曾出现过反复。
可见在物理学界关于什么是无标度网络认识并不一致。
事实上,在此之前加州理工学院的Li等人和AT&T实验室的Willinger[9]就质疑过无标度网络的定义,但由于不是物理学家,他们的长文2005年发表在Internet Math.上。
而在无标度网络提出不久,随机图论的权威人物剑桥大学的Bollobás和牛津大学的Riordan等人[10]就指出,作为无标度网络典型代表的BA模型“不明确”。
他们修改了模型并给出了严格的数学证明,文章2001年发表在Random Structures and Algorithms上。
鉴于无标度网络概念在网络科学中的基本重要性,概念的含混不清会引发许多其它连带的问题。
例如,网络科学界名人Newman所提出的度相关系数测度[11]和度指数极大似然估计公式[12]就值得商榷。
因此有必要进一步探讨无标度网络的界定,通过对提出无标度网络原创论文的研究,我们的理解是:无标度网络泛指网络度分布具有幂律行为比较合适。
度分布有幂律分布的网络只是其中的一部分,难怪网络世界似乎是无标度网络的天下。
在文献上我们经常会见到产生无标度网络的多种情况:(1)给定幂律度序列的网络;(2) 来自实际网络的数据子网络;(3)确定的几何增长模型网络;(4)类似于BA随机模型的网络;P k kγ−,人们通常就认为是无标度网络,从而等等。
如果它们的度分布近似幂律形式()~据此得出种种无标度网络性质的推论。
“近似”是科学的研究手段之一,采用近似方法无可非议,但用在这里则是造成许多误解和争议的根源。
在科学研究中,虽然方法可以近似,但概念则必须明确,当涉及部分与全体时,两者在逻辑上不能混淆。
我们将依次展开讨论,阐明文献上对无标度网络的理解和认识,着重挖掘无标度网络原创论文的思想,然后说明无标度网络大家庭不同兄弟特性上的重要区别。
2. 给定幂律度序列的网络将网络N 个节点的度按大小排序得12N d d d ≥≥≥ ,称1{,,}N d d 为节点度序列。
2.1 给定度序列的图实现现在任意给定一个度序列1{,,}N d d ,其中都是自然数。
假定已按非增顺序排列,问该度序列能否用简单无向图实现?图论中有如下两个定理。
Erdös-Gallai 定理 度序列1{,,}N d d 可用简单无向图实现当且仅当1N i i d =∑是偶数,并且k k L R ≤,1,2,,k N = ,其中k L 和k R 通过下面递推关系给出: 11L d =,1k k k L L d −=+;1R N =,*1*11, 2, k k k k k R x k k R R k d k k−−⎧+−∀<=⎨+−∀≥⎩, (1) 其中max{|1}k i x i d k =<+,*min{|1}i k i x i =<+。
Havel-Hakimi 定理 度序列1{,,}N d d 可用简单无向图实现当且仅当经过简化的度序列1123{1,1,,1,,,}d d N d d d d d −−− 可用简单无向图实现。
递推应用这个定理就可检测一个度序列是否可图实现。
还有其它实现方式吗?2.2. 幂律度序列的图实现我们从幂律分布定义开始。
一个在整数1到N –1中值取的随机变量,如有概率分布 1,()N k P k H γγ−−=,1,2,,1k N =− , (2) 其中,1a b a b k H k −==∑, 就称它服从有限幂律分布。
当1γ>和N →∞时,1,()N H γζγ−→黎曼ζ-函数,得(无限)幂律分布。
若从某个自然数0k 起才有()~P k k γ−,则称为幂律衰减尾部。
显然,幂律分布有幂律衰减尾部,但具有幂律衰减尾部的分布不一定是幂律分布。
然而实际网络统计、分布随机抽样、模型模拟生成等等得到的都是有限样本数据生成的度序列,因此如何判断和区分它们来自何种幂律形式是理解无标度网络概念的关键。
这里将涉及有限与无限的问题,实际处理有限,理论模型无限。
最近,PRL 刊登了德国马普研究所Genio 等人和美国休斯顿大学物理系Bassler [2]的一篇文章,认为“无标度网络都是稀疏网络”。
众所周知,对度分布为幂律,或更一般些具有幂律衰减尾部的分布()~P k k γ−,当2γ≤时其平均度发散。
这里随着网络规模增长,在热力学极限(指N →∞)下,假定无标度网络度指数保持不变。
若度指数2γ≤时其平均度发散,这样的网络称为致密的;而2γ>时,即网络平均度有限时,则称为稀疏的。
为了调查无标度网络度指数γ与可图实现的相依关系,他们从具有指数24γ−≤≤的有限幂律分布随机生成范围在1到N –1的整数作为节点有幂律度序列的总体。
在随机图论中,如果度序列中给定度k 的节点数()n k k γ−∝(这里记号∝指正比),则该度序列称为幂律度序列[13]。
具有幂律度序列的图称为幂律随机图(或无标度网络),有多种模型。
令E 是总度数为偶数的幂律度序列数,G 是其中可图实现的度序列数,现在来研究可图实现度序列比例g=G/E 与度指数γ的关系。
他们通过数值模拟和极值分析得到:当幂律度序列指数02γ≤≤时一般不可图实现,而且指数0和2是两个一阶相变临界点,见图1(他们为了研究序列长度的相依性,还计算了Binder 累积量的插图,因为与本文无关,这里删除了该插图)。
他们由此得出结论:“无标度网络都是稀疏的”。
图1 无标度网络度指数γ与可图实现度序列比例g 的关系(取自文献[2]) 然而,实证统计研究发现,某些实际网络的度指数会出现2γ≤。
例如,Leskovec 在博士论文[14]中统计分析了预印本数据库arXiv 中高能物理领域论文引用网络,统计得到度指数68.1=γ。
为此,网络科学界名人Kleinberg 等人[15]曾提出平均度随时间增长的致密性幂律。
若总连线数()E t 和总节点数()N t 之间有渐近关系()~()E t N t ξ,当(1,2)ξ∈且度指数不随时间变化,则称为致密性幂律。
我们[16]曾经提出过一个优胜劣汰模型,利用节点度的非齐次生灭过程给出了计算度分布的方法。
优胜劣汰模型也会出现度指数2γ≤的幂律衰减尾部,但它的度分布在小度数会呈现“马头”形状。
3. 无标度网络的随机抽样子网络假定以概率p 从无标度网络中随机抽取节点,当有连线的两个节点都被抽到则连线保持,见图2中红色节点和连线。
这样得到的子网络是否无标度?图2 随机抽样示意图,上图是实际网络,下图是数据网络(取自文献[3])从实际统计的经验看,随机抽样只要样本足够大就应该与母体分布一致。
众所周知,实际网络数据只是真实网络的一个样本。
混沌领军人物之一,牛津大学的May 等人[3]在PNAS 曾抛出了一篇重磅炸弹文章,认为无标度网络的随机抽样子网络不是无标度网络。
果真如此,除非能明确实证研究的网络不是随机抽样,则说某某网络是无标度网络将失去意义。
现在令数据网络的度分布为*()P k ,实际网络的度分布为()P k ,在什么意义下*()P k 能够反映()P k ,如*()~P k k γ−能说()~P k k γ−吗?这是一个有趣的理论问题。
为此需要建立*()P k 和()P k 之间的关系,根据随机抽样假设,容易得到[3]()()()*1d k k d k d P k P d p p k −≥⎛⎞=−⎜⎟⎝⎠∑, (3)其中因子p (抽到度为d 节点的概率)被归一化删除,求和是其k 个邻结点也被抽到的概率。
May 等人[3]希望数据网络和实际网络的分布形式相同只是参数不同。
在此意义下,他们说明了若实际网络的度分布是泊松分布,则数据网络度分布仍为泊松分布;但是若实际网络的度分布是幂律分布,则数据网络度分布不是幂律分布。
问题出在随机抽样会产生许多孤立结点()*00P ≠,而复杂网络又不考虑孤立结点()00P =。
然而有趣的是:从具有幂律度分布网络随机抽样得到的子网络,其度分布一般为幂律衰减尾部的分布。
Cooper 和Lu [17]忽略小度数来比较分布形式。
在此意义下,对幂律分布,他们得到*()P k 与()P k 从某个常数度开始有相同形式,条件是网络最大度小于1Nε−。
他们的证明需要用到鞅论,而且条件等价于3γ<,不容易被网络科学界接受。
我们考虑存在常数i c 使得120*()()c P k P k c <≤≤<∞来比较分布形式,文献[18]对()~P k k γ−时,称*()P k 有幂律行为(behavior)。
在此意义下,利用母函数能够证明(见附录1)对具有幂律行为的网络度分布,子网络度分布的幂律行为保持不变。
4. 几何增长模型生成的网络如果网络度分布只对某些度有幂律形式()~P k k γ−,定义域k X ∈, (4)其中定义域X 是自然数的某个子集,则只有定义域是自然数,它是幂律分布。
若定义域是真子集,则可能存在许多度概率为0,例如确定的几何增长模型网络就是如此。