复杂网络聚类算法的研究
(芽殖酵母菌) 的蛋白质交互网 络
19
动态社会网络簇结构分析
(Nature 2007)
该研究结果发现了维持社会结构稳定性的两个基本原则: 对于大规模社会机构,其成分的动态变化利于维护该机构的稳定性; 20 相反的,对于小规模机构,其成分的固定不变利于维护该机构的稳定性。
基于网络簇结构分析的链接预测
32
2.3.4 HITS 算法 (Journal of ACM,1999 )
1999年,针对基于链接的网页排名问题,克莱因博格(Kleinberg)等人 提出了著名的HITS算法,该算法也可用于基于内容的网页聚类。
HITS算法基于的基本假设
根据链接关系,WWW中存在权威(authority)和中心(hub)两种基本类型 的页面,权威页面倾向于被多个中心页面引用,而中心页面倾向于引用 多个权威页面。 基于权威--中心页面间相互指向的链接关系,HITS算法通过计算 WWW子图(由查询得到的子图经过扩充而成)对应的某个特殊矩阵 的主特征向量来发现隐藏在WWW中的全部由权威--中心页面构成 的网络簇结构。 该算法与Google的PageRank算法齐名,被包括Altavista在内的多个搜 索引擎所采用。
12
Network Community Structure (Science 2002, Nature 2005, 2007)
网络簇结构(network community structure)具有同簇节点相互连接 密集、异簇节点相互连接稀疏的特点。
13
1.复杂网络聚类方法的研究背景及意义
复杂网络聚类方法的研究对分析复杂网络的拓扑结构、理解复
27
Kernighan-Lin算法(《Bell System Technical Journal》,1970)
1. 1970 年 , 针 对 图 分 割 问 题 克 宁 汉 - 林 (B.W. Kernighan和S. Lin)提出了 KL 算法 ,该算法也可 用于复杂网络聚类。 2. KL算法简介 KL的优化目标是: 极小化簇间连接数目与簇内连接数目之差的绝对 值; KL算法的不足: 找到的解往往是局部最优而不是全局最优解。 KL 对初始解非常敏感,它需要先验知识。 KL算法的时间复杂性: O(tn2),t 表示算法终止时的迭代次数,n表示网络 节点个数。
(Nature 2005)
科学家合作网: 每个节点表示 一个科学家, 连接表示科学 家之间的合作 紧密程度。
语义网络 : 每个节点 表示一个英文单词, 连接表示词在某个语 境下共同出现的频率。
16
聚类基因网络
Nature 2003
17
聚类新陈代谢网络
Nature 2005
18
聚类蛋白质网络
(Nature 2005)
28
快速Newman算法(《Physical Rev. E》,2004)
1. 2004年,纽曼(M.E.J. Newman)提出了基于局部搜 索的快速复杂网络聚类算法FN. 2. 算法FN简介 FN的优化目标:极大化纽曼与格万(M.E.J. Newman和M. Girvan)于同年提出的网络模块性 评价函数:Q函数. Q 函数定义为簇内的实际连接 数目与随机连接下簇内的期望连接数目之差,用 来定量地刻画网络簇结构的优劣. Q值越大则网络 簇结构越好。 FN算法的时间复杂性: 是O (m n),m和n分别表示网络的连接数和节点 数
(Nature 2008)
该研究提出了一种广义的随机网络模型 (相对于经典的ER随机网络模型): (1)具有更强的表达能力,既能刻画 assortative网络又能刻画disassortative 网络; (2)对于给定的网络,该模型能够精 确的预测出网络中的未知链接或缺失链 接,并能剔除网络中存在的噪音链接。
复杂网络聚类方法研究
吉林大学知识工程教研室 吉林大学计算机学院
1
目
录
1.复杂网络聚类方法的研究背景及意义
2.复杂网络聚类方法的研究现状及分析
3.复杂网络聚类所面临的问题
4.我们的工作
5.复杂网络vs时空数据挖掘
2
1.复杂网络聚类方法的研究背景及意义
现实世界中的诸多系统都以网络形式存在, 如社会系统中的人际关系网、科学家协作网 和流行病传播网,生态系统中的神经元网、 基因调控网和蛋白质交互网,科技系统中的 因特网、万维网、通信网、交通网等。由于 这些网络所对应的系统具有很高的复杂性, 因 此 被 统 称 为 “ 复 杂 网 络 (complex network)”。
3
社会网络(Social Networks)
科学家协作网
移动电话网络
《圣经》对应的社会网络
4
生物网络(Biological Networks)
新陈代谢系统网络 蛋白质交互网络
食物链网络
5
科技网络(Technological Networks)
6
复杂网络分析具有重要研究意义
对于小规模网络,我们可以 通过肉眼观测其形态、特征, 但是对于(超)大规模复杂网 络,我们将很难通过肉眼深 入理解和预测网络的结构、 行为和功能,需要借助各种 复杂网络分析方法。
以及关系数据分析等众多领域。
Nature 2005
14
应用例子1– 聚类分析
15 10 5 0 -5 -10 -10 0 10 20 30
Gaussian similarity function (高斯相似度函数):
aij exp( || xi x j ||2 / )
15
应用例子2
社会网络、语义网络、生物网络分析
Poisson distribution
Power-law distribution
P( X k ) k a
e k P( X k ) k!
11
Network Motif (Science 1999)
Network Motif:在统计意义上,网络中频繁出现的 子图模式。(某些子图在现实网络中出现的概率明显高 于这些子图在随机网络中出现的概率)。
O(101)
O(103)
O(108)
7
1.复杂网络聚类方法的研究背景及意义
复杂网络已成为当 前最重要的多学科 交叉研究领域之一。 小世界性、无标度 性、网络模体和网 络簇结构是迄今为 止发现的最普遍和 最重要的复杂网络 拓扑结构属性。
8
Small World (Nature 1998)
小世界网络: 具有较小的平均路 径长度,同时具有 较大的聚类系数。
31
2.3.2 GN算法(PNAS,2002)
2002 年,格万和纽曼 (M. Girvan 和 M.E.J. Newman) 提出了基于 反复识别和删除簇间连接策略的复杂网络聚类算法GN. GN算法的缺点 GN的最大缺点是计算速度慢,边介数计算的开销过大O (m n), GN具有很高的时间复杂性O(m2n),只适合处理中小 规模的网络(包含几百个节点的网络)。 GN算法的意义 在复杂网络聚类研究中,GN算法占有十分重要的地位(该 文被引用超过1000次),格万和纽曼工作的重要意义在于:他 们首次发现了复杂网络中普遍存在的网络簇结构,启发了其他 研究者对这个问题的深入研究,掀起了复杂网络聚类的研究热 潮。
30
2.3 启发式复杂网络聚类方法
启发式复杂网络聚类算法的共同特点是:
基于某些直观假设来设计启发式算法,对大部分网络 来说,它们能快速找到最优解或近似最优解,但无法 从理论上严格保证它们对任何输入网络都能在令人满 意的时间内找到令人满意的解。 本报告介绍几个典型的启发式复杂网络聚类算法: 算法 GN(Girvan-Newman) 算法 HITS(Hyperlink Induced Topic Search) 算法 CPM(Clique Percolation Method) 算法 FEC(Finding and Extracting Communities)
29
Guimera - Amaral算法(《Nature》,2005)
1. 2005 年, 吉莫热与阿麦拉尔 (R. Guimera 和 L.A.N. Amaral) 采用与算法 FN 相同的优化目标函数,提出 了基于模拟退火算法 (SA) 的复杂网络聚类算法 GA , 并应用到新陈代谢网络分析中。《Nature》2005年2 月刊报道了该项研究工作。 2. 算法GA的优缺点 GA采用模拟退火控制策略,因此GA具有跳过局 部最优解、找到全局最优解的能力,因而具有很好 的聚类精度。 GA 的效率取决于算法 SA 的效率,而后者通常 收敛很缓慢。 GA 对输入参数非常敏感,不同的参数设置往往 导致不同的聚类结果。
25
Optimization based algorithms Complex networks clustering algorithms Heuristic algorithms
2.1 复杂网络聚类方法的分类
Similarity based methods Hybrid methods
Others
21
1.复杂网络聚类方法的研究背景及意义(续)
由于复杂网络聚类研究具有重要的 理论意义和应用价值,它不仅成为 计算机领域中最具挑战性的基础性 研究课题之一,也吸引了来自物理、 数学、生物、社会学和复杂性科学 等众多领域的研究者,掀起了一股 研究热潮。从 2002 年至今,新的方 法层出不穷,新的应用领域不断被 拓展,不同领域的权威国际杂志和 多个重要国际学术会议多次报道这 方面的研究工作。 复杂网络聚类方法已成为图论、复杂网络、数据挖掘等理论的重要组成部分 和相关课程的核心内容。如康奈尔大学计算机系开设了《The Structure of Information Networks》 课 程 , 麻 省 理 工 电 子 工 程 和 计 算 机 系 开 设 了 《Networks and Dynamics》课程。