第32卷第3期 2015年3月 计算机应用与软件
Computer Applications and Software V01.32 No.3
Mar.2015
一种微博用户影响力的计算方法 张吴刘功申 苏 波 (上海交通大学信息安全7-程学院上海200240)
摘要 针对微博中用户影响力分析这个问题,提出用户影响力的计算方法。该方法首先提出用户自身影响力以及用户被影响 , 力的概念,并根据用户自身特征与用户粉丝情况得出其计算公式,从而可以综合考虑用户在微博中的所有信息,计算出用户影响力。
实验结果表明,这种计算方法能比较好地反映用户在其粉丝中的影响力。 ’
关键词 微博用户影响力 用户被影响力 中图分类号TP39 文献标识码A DOI:10.3969/j.issn.1000-386x.2015.03.012
A CoM[PUTING M[ETHoD FoR MICRoBLoGGING USERS INFLUENCE Zhang Hao Liu Gongshen Su Bo (School ofInformation Security Engineering,Shanghai Jiao Tong University,Shanghai 200240,China)
Abstract For the problem of analysing microblogging users’influence,here we present a calculation method for this issue.In this method.two concepts are proposed first:the influence of user8 theknselves and the capacity of them to be influenced.Then the calculation formula is obtained according to the characteristics of users their own and their fans’situation,SO that it iS able to take all the information of users in microblogging into account comprehensively and thus to calculate the microblogging users’influence.Experimental results show that this method can well reflect the influence of mieroblogging users among their fans.
Keywords Microblog User influence User’S capacity of being influenced
0 引 言 随着互联网技术的发展,微博以及其他基于Web2,0技术 的诸多应用,正改变着互联网用户的生活…,以新浪微博 (http://weibo.com/)为例,其注册用户接近4亿。微博的核心 影响力,是人与人的关系,所以微博用户影响力的研究就格外重 要。现有的微博影响力分析算法主要参考goose的 PageR— ank[2 算法及其变种算法 和HITS[5 算法及其变种算法 ]。 在国外对微博影响力的研究主要集中在Twitter上,Jianshu Weng提出的TwitterRank 算法,可以计算Twitter中用户的影 响力,但是该算法仅考虑拥有相似话题的用户间相互的影响力, 不具有一般性。在国内的研究中,刘耀庭提出的UserRank 算 法,该算法将用户关系与PageRank对应起来,遍历所有的好友 关系,计算出用户的UserRank值从而判断用户的影响力,但是 此算法用于类facebook的社交网站并不适用于微博。邓夏 伟 提出的适用于人人网的用户排名系统,在优化了文献[9] 中的UserRank算法,但由于人人网的数据的局限性,该文也仅 对好友之间的关系来进行影响力分析。石磊 u等在分析微博 用户影响力时引入活跃指数,但也只是从用户关注数,粉丝数, 微博数,首条微博发布时间,最近微博发布时间这几项数据中对 微博的用户影响力进行了分析,并没有涉及用户的整体信息。 总体来说,现有的微博用户影响力分析中仅仅是考虑了用 户的关注数、粉丝数、所发的微博数来作为排名依据进行计 算,首先这样会出现僵尸粉(僵尸粉即微博上的虚假粉丝)影响 结果,其次这样忽略了许多微博本身提供的信息,如用户粉丝与 其互动、用户发微博后粉丝是否转发与评论等,所以并不能客 观全面地表明一个用户真正的影响力。本文提出了一种用户在 其粉丝群体中的影响力计算方法,并采集了微博数据进行实验。
1算法思路 1.1用户影响力的定义 用户影响力即用户在一个群体中影响他人的能力,在微博 这个特定环境下,用户所发表的言论,所表达的信息的传递方式 是由用户粉丝,用户粉丝的粉丝这样一级级地传递下去,所以在 微博中用户的影响力即用户对其粉丝的影响力。 1.2用户影响力计算 对于一个微博用户而言,他的全部信息包括他的粉丝、他 所关注的对象,他所有的微博,以及他自身的特征。如果想全面 地分析一个用户的影响力那么必须分析其所有的信息。对于互 联网中排名而言PageRank算法的正确性已得到了证明,所以本 文所提出的算法参考PageRank,提出了以下概念: 用户自身影响力(UIown) 用户自身在微博中对其粉丝的
收稿日期:2013—08—04。国家自然科学基金项目(61272441,6117 1173)。张昊,硕士生,主研领域:内容安全。刘功申,副教授。苏波, 讲师。 42 计算机应用与软件 2015血 影响的能力。 用户被影响力(Uled) 用户在微博中受到被他关注人所 影响的能力,即就是用户看到一条微博后受到其影响的能力。 用户发布了一条微博,这条微博会传递给其粉丝,其粉丝也 有一定概率将这条微博转发。这条微博就经上述途径传递了下 去,每一级的传递概率取决于用户的被影响力,即用户被影响力 为用户将信息传递下去的概率。同一用户对于不同的关注者, 被影响力是不同的。上述过程就是微博中的话题传播,在相同 条件下,较活跃的节点得知新话题信息并参与讨论的概率比较 高 。所以参考PageRank的核心思想,用户影响力不仅仅由 其自身所具有的特征(Ulown)决定,并且还由其粉丝对其影响 力的贡献,所以得11151下公式: = × +Ulown (1) 』 ‘ ‘ 、 f=l 这里Ull,Uled 表示用户第i个粉丝的用户影响力与用户被影 响力。对于一个用户他的影响力应该主要由自身的影响力所决 定,否则如果一个拥有很大用户影响力的用户关注了另一个用 户A,用户A不发微博,也没有多少粉丝,那么A的用户影响力 很小,如果粉丝对用户提供的影响力所占比重较大,那么计算出 来的用户A的影响力也是较大,这样有违常理。也可以从另一 个角度理解,一个用户关注了很多其他的用户,当他打开微博所 获得的信息来自很多人,那么他获得某一个用户信息的概率就 会很小,所以用户的被影响力Uled其量级与UI不同,故可以认 为Uled为uI的一阶小量。如果我们定义 ,, ,为用户第i 个粉丝的第 个粉丝,对用户影响力公式做一阶展开可得: UI=∑(∑UI ×Uled +Ulowni)×UIedf+Ulown(2) f=1 =I 继续展开可得: =∑∑%×Uledi ̄ ̄Uledl+∑Ulown ×Uledi+Ulown(3) 对于一般用户其关注数均大于粉丝数,经过实际演算与实验以 及上述结论,上式的第一项可以作为二阶小量进行忽略,所以用 户的影响力计算公式如下: UI= .Ulown ×Uled +Ulown (4) ‘ i=1 上式表明,用户的影响力由其粉丝的影响力与其粉丝的被 影响力相乘再加上其自身的影响力组成,这个公式与PageRank 的核心公式相仿。从另一个方面理解这个公式,用户A可以通 过自身的影响力将某一事件传递给其粉丝B,而其粉丝B也有 一定概率将这个事件继续传递下去,不是该用户的粉丝的用户 C通过B看到这一事件,对于社交网络而言C受到了A的影 响,虽然C与A没有直接联系,这部分的影响力就是A的粉丝 B对A提供的。所以我们如果想计算一个用户的影响力,就需 要知道他自身的影响力以及他的粉丝群体中每个人的自身影响 力以及被影响力。 1.3计算用户的自身影响力 以新浪微博为例,对于一个微博用户 本文认为其影响力是 由如下信息构成: ・用户个人的信息 (1)用户的身份标识在新浪微博用户身份标识分为新浪 个人认证,新浪机构认证,新浪微博达人以及普通的新浪用户。 不同的标识代表着不同的用户影响力其中认证用户影响力较 大,达人用户次之。 (2)用户的活跃天数 即用户从注册开始累积在线天数, 用户在线时间越长,说明用户越活跃。 ・用户的粉丝信息 (1)用户的粉丝数如果一个用户粉丝比较多,那么其信 息的传播就会有更多的用户看见,拥有更高的影响力 (2)用户的核心粉丝数百分比评论或转发过该用户微博 的用户粉丝占总体粉丝的百分比。核心粉丝数百分比代表了用 户的粉丝中经常关注用户的个数,代表着用户粉丝的质量。 (3)非用户粉丝转发数转发用户微博的用户中,不是其 粉丝的个数,此个数代表着用户对整个网络中信息传播的二级 影响力。 ・用户微博信息 (1)用户累积所发微博数用户所发的微博越多表明用户 越活跃,其影响力越高。 (2)用户被转发微博的占所有微博的百分比如果一个用 户发微博并引起粉丝的转发或者评论,就说明这条微博具有一 定影响力。一个用户他被转发的微博占所有微博的百分比越高 说明用户的影响力越大。 (3)用户被评论微博的占所有微博的百分比与被转发微 博相同,用户被评论微博的占所有微博的百分比越高,其微博影 响力越大。 (4)用户微博平均评论数用户平均每条微博评论的个 数。用户所发微博被评论的次数越多,说明用户受关注度越多, 其影响力就越高。 (5)用户微博平均转发数用户平均每条微博转发的个 数,与上条相同,用户微博平均转发数越多,说明用户受关注度 越多,其影响力就越高。 基于最简单的思想,用户个人的信息、用户的粉丝信息、 用户微博信息都作为用户影响力这个属性的一个分量,其值的 大小直接影响用户影响力,并且这3个属性彼此之间应该互相 独立,组成用户影响力的因子。因为其中一两项高并不能完全 代表用户影响力的总体体现,所以他们直接应该是乘法关系,而 对于这三种信息中各自包含的特征应该为加法关系。 对于用户影响力的数值关系,需要确定一个标准,规定用户 的平均影响力为1,那么用户所得到的用户影响力的数值即为 与平均影响力相对应的数值,那么做如下规定: =Ul1.× × (5) 其中 为用户个人的信息,% 为用户的粉丝信息, 为用 户微博信息 对于每一个分量的计算公式如下: :(Ui砸/Ui响+U+z/U )/2 (6) Ulh = uf/uf+U /Uof+U U )/3 07) UIc。=( / +U /U叩+U /Ucp+ / +U,JU.j )/5(8) u 为用户的身份标识,U 帕为其平均值;U 为用户活跃天 数, 为其平均值。 为用户粉丝数, 为其平均值; 为用户核心粉丝数, 为其平均值; 为非用户粉丝转发数, 为其平均值;