当前位置:文档之家› 融合朴素贝叶斯方法的复杂网络链路预测

融合朴素贝叶斯方法的复杂网络链路预测

DOI : 10.11992/tis.201810025网络出版地址: /kcms/detail/23.1538.TP.20190109.1748.006.html融合朴素贝叶斯方法的复杂网络链路预测王润芳1,陈增强1,2,刘忠信1,2(1. 南开大学 人工智能学院,天津 300350; 2. 天津市智能机器人重点实验室,天津 300350)摘 要:近来复杂网络成为了众多学者的研究热点。

但真实网络中的连边信息并不完整,不利于网络的分析研究,链路预测可以挖掘网络中的缺失连边,为网络重构提供基本依据。

本文认为网络中链接的产生不仅受外部因素——共同邻居的影响,还受其自身因素的影响。

其中,共同邻居的影响可以通过文献中的局部朴素贝叶斯(LNB)模型量化,节点的影响则根据其自身的度量化。

本文将两者综合考虑,提出了融合朴素贝叶斯(SNB)模型,然后用共同邻居(CN)、Adamic-Adar(AA)和资源分配(RA)指标进行推广。

在美国航空网(USAir)上的实验结果表明,该方法的预测准确度比LNB 和基准方法均有所提高,从而证明了该方法的有效性。

关键词:复杂网络;融合朴素贝叶斯模型;局部朴素贝叶斯模型;贝叶斯模型;链路预测;共同邻居;节点度;网络重构中图分类号:TP391 文献标志码:A 文章编号:1673−4785(2019)01−0099−09中文引用格式:王润芳, 陈增强, 刘忠信. 融合朴素贝叶斯方法的复杂网络链路预测[J]. 智能系统学报, 2019, 14(1): 99–107.英文引用格式:WANG Runfang, CHEN Zengqiang, LIU Zhongxin. Link prediction in complex networks with syncretic naive Bayes methods[J]. CAAI transactions on intelligent systems, 2019, 14(1): 99–107.Link prediction in complex networks with syncretic naive Bayes methodsWANG Runfang 1,CHEN Zengqiang 1,2,LIU Zhongxin 1,2(1. College of Artificial Intelligence, Nankai University, Tianjin 300350, China; 2. Key Laboratory of Intelligent Robotics of Tianjin,Tianjin 300350, China)Abstract : Recently, complex networks have become a research hotspot. However, edge information in the real network is incomplete, which is not conducive to the analysis and research of the network. Link prediction can provide a funda-mental basis for network reconstruction by digging out the missing edges in the network. This paper demonstrates that the generation of links in the network is not only influenced by external factors (common neighbors) but also by its own factors. Among them, the influence of common neighbors can be quantified via the local naive Bayes (LNB) model in the literature, whereas the influence of nodes can be quantified depending on their degree. Therefore, a syncretic naive Bayes (SNB) model is proposed based on comprehensive consideration of the influence of the two abovementioned as-pects. The model is then extended to common neighbors, Adamic-Adar, and Resource Allocation methods. Finally, the experimental results on USAir show that the prediction accuracy of the method is higher than that of LNB and the benchmark method, which proves the effectiveness of the SNB model.Keywords : complex network; syncretic naive Bayes model; local naive Bayes model; Bayes model; link prediction;common neighbors; the degree of node; network reconstruction现代社会中的信息呈爆炸式增长,使得社会系统极具复杂性。

研究表明,各种系统之间的交互信息可以通过对应的复杂网络表示,其中,网络中的节点代表系统中的个体,连边代表个体之间的关系[1]。

网络科学是专门用于研究各种复杂网络系统的定性和定量规律的一门交叉学科[2]。

然而,由于隐私政策和个体设置等原因,实际获收稿日期:2018−10−23. 网络出版日期:2019−01−10.基金项目:国家自然科学基金项目(61573199, 61573197). 天津市自然科学基金项目(14JCYBJC18700).通信作者:陈增强. E-mail: chenzq@ .第 14 卷第 1 期智 能 系 统 学 报Vol.14 No.12019 年 1 月CAAI Transactions on Intelligent SystemsJan. 2019取的网络连边信息往往是不完整的,加大了网络科学研究的难度。

链路预测能够对缺失信息进行还原和预测,是网络科学研究的有力辅助工具,具有重要的理论研究和实际应用价值。

一方面,链路预测可以帮助人们理解各种复杂网络的演化机制[3-4],为不同演化模型的优劣比较提供统一平台;另一方面,链路预测的结果可以指导生物网络中的实验,降低实验成本并提高准确率,还可以建立网络中的推荐系统[5]。

网络中的链路预测,是指如何根据网络中已知的节点和结构信息,预测网络中尚未产生连边的两个节点之间产生连接的可能性[6],包括未来链接和未知链接的预测,常用的方法可分为两大类:基于相似性的方法和智能方法。

基于相似性方法的一个基本假设是:两个节点越相似,在未来连接的可能性越大,而节点的相似程度可通过相似性指标量化,即根据相似性指标计算相似性得分,得分越高,两个节点越相似。

已有相似性指标可分为三大类:基于节点局部信息的方法,如共同邻居(CN)[7]、Adamic-Adar(AA)[8]和资源分配(RA)[9]指标等;基于全局路径的方法,如Katz[7]和局部路径(LP)[9]等;基于随机游走的方法[10]。

上述方法中,基于节点局部信息的方法运算复杂度最低,且预测准确度较高,因此常被用作基准指标。

吕琳媛等[11]对几种基准指标的研究发现,无论是否加权,RA均表现最好,且无权指标的性能均优于加权指标。

由此得出:复杂网络中的弱连接不容忽视,强调弱连接的贡献可以极大提高预测准确度。

此外,作者意识到这些指标存在共同缺点,即认为所有共同邻居对于节点对的贡献相同。

为此,Liu等[12]假设每个共同邻居的贡献不同,有些促进链接的产生,有些则抑制,因此共同邻居数量相同的节点对产生链接的概率可能不同。

然后将朴素贝叶斯理论应用到链路预测中,提出了局部朴素贝叶斯(LNB)模型。

最近,Valverde-Rebaza等[13]认为每个用户可能同时属于多个社团,且扮演角色不同,预测时应充分考虑用户所属的所有社团信息。

基于此思想,Val-verde-Rebaza在文献[14]中提出了基于重叠组的朴素贝叶斯(GNB)链路预测模型。

此外,考虑到共同邻居之间并非完全相互独立,文献[15]使用互信息量化共同邻居的相关性,对LNB进行推广,提出了广义的树增广朴素贝叶斯(TAN)概率模型,并扩展到了CN、AA和RA指标,在运行效率和有效性等方面均优于基准方法。

然而,上述方法仅考虑了共同邻居的作用,忽略了节点自身的影响。

闫玲玲等[16]提出了一种基于度和聚类系数的新指标,对中国航空网络中的节点重要性进行分析。

Pujari等[17]认为节点对的每个属性代表不同信息,可以将所有属性对应特征进行加权整合以提高预测性能。

Li等[18]以新浪微博为研究对象,根据其自身特点提出了包含用户临近特征、属性特征和拓扑特征的特征集用于预测。

但这些方法仅考虑了节点自身作用,忽略了共同邻居的影响。

为解决上述问题,本文基于局部朴素贝叶斯(LNB)模型提出了融合朴素贝叶斯(syncretic na-ive Bayes,SNB)模型。

本文的主要贡献如下。

1)认为链接的产生受到内部和外部两方面因素的影响。

其中,节点对自身特点属于内部影响,可以通过节点度量化;共同邻居的作用属于外部影响,可以通过LNB模型量化,将两者结合提出一个新模型。

2)模型的优劣不仅体现在其自身的预测精确度上,还体现在它与其他思想的融合效果上,后者可以通过其在基准指标推广后的预测精确度定性描述。

因此,文中将SNB推广到CN、AA和RA形式,说明其具有普适性。

近些年,智能方法受到广泛关注。

已有研究包括支持向量机[19]、BP神经网络[20-21]、3层隐含的贝叶斯(3-HBP)链路预测模型[22]、最大熵模型[23]以及可变贝叶斯概率矩阵分解模型[24]等。

与直接给节点对分配相似性得分不同,这些方法都是通过学习已知知识建立模型进行预测,是将来的研究重点。

1 预备知识本部分首先给出了链路预测的概念,然后介绍了本文的理论基础——朴素贝叶斯理论,接着阐述了一些常用的基准指标,最后简要介绍了局部朴素贝叶斯(LNB)链路预测模型。

相关主题