2018年第5满 y他息疼pit文章编号=1009 -2552 (2018)05 -0075 -04 DOI:10.13274/ki.hdzj.2018. 05. 018基于PageRank的微博用户影响力评估模型研究谢橙瞬,周莲英(江苏大学计算机科学与通信工程学院,江苏镇江212000)摘要:为解决PageRank算法对社交网络中的用户进行影响力评估时产生的“主题偏移”和P R值均匀分配问题,文中以新浪微博为例,构建了用户活跃度、人气值、兴趣度和用户价值四个评估指标,将用户的自身属性作为影响力的评定因子和分配因子,从内在和外在两方面综合考虑用户的影响力,基于PageRank算法提出一种对用户影响力进行综合评估的CIRank模型。
在真实微博数据集下,将CIRank模型与传统影响力评估模型结合新浪官方影响力排名进行比较分析,验证其准确性和可行性。
关键词:微博;用户影响力;PageRank;CIRank中图分类号:TP309 文献标识码:AResearch on evaluation model of microblog users5influencebased on PageRankXIE Cheng-shun,ZHOU Lian-ying(School of Computer Science and Communication Engineering,Jiangsu University,Zhenjiang 212000, Jiangsu Province,China) Abstract:In order to solve the problem ol“theme deviation”and the average distribution ol PR valuewhen the PageRank algorithm is used to evaluate the influence ol the users in the social network,thispaper constructs lour evaluation indicators as users5activity,popularity,interest and user value based onSina microblog,the users’own attribute is used as the evaluation factor and distribution factor olinfluence and it considers the influence ol users from the external and internal aspects,the CIRank modelis proposed to evaluate the user influence comprehensively based on the PageRank algorithm,and theCIRank model is compared with the traditional influence evaluation model and Sina’s official ranking toverily its accuracy and leasibility in the real microblog data.Keywords:microblog;user influence;PageRank ;CIRank0引百随着新媒体时代的到来,微博作为信息传播和 获取的载体,以其极快的信息传播速度,多元化的交 流方式和平民化的注册门槛,吸引了越来越多用户 的加人。
微博用户的影响力是对用户在微博社交网 络中传播信息能力以及对他人造成影响程度大小的 一种综合衡量,通过发现微博的高影响力用户,把握 信息传播的枢纽,可以为商业营销和舆情监控等方 面的研究提供指导。
本文从两个方面综合考虑微博用户的影响力,基于传统的PageRank算法,提出一种新的微博用户影响力评估模型。
1国内外相关研究微博作为一个用来获取信息的媒体[1],拥有十 分庞大的用户群体,微博的迅速发展与普及也吸引 了众多的学者的目光。
对于微博网络用户的影响力 研究可以归纳为以下三类,第一类是直接用粉丝的 数量来衡量用户的影响力[2],这种方法忽略了微博 中僵尸粉的存在,而且单以粉丝量来评估用户影响收稿日期:2017 -09-13作者简介:谢橙瞬(1992 -),男,在读硕士,研究方向为互联网大数 据分析。
—75—力不具有说服力。
第二类是从用户关系和用户行为 的角度对微博用户影响力进行评估,很多学者利用 PageRank[3]算法中各页面的链人链出情况模拟用 户之间的关系,加以改进并通过计算对用户影响力 进行排序,如Wengjianshu[4]基于PageRank算法思 想提出了 Tw itterR ank算法从而发现影响力大的用 户,陈浩[5]在利用PageRank算法思想的同时引人 了粉丝质量这一概念,在考虑用户连接关系的同时 又避免了微博僵尸粉的干扰,H allbert[6]等着力于研 究用户间的连接关系,通过连接关系的强弱来分配 用户影响力值。
第三类是基于统一资源定位符(URL)追踪的用户影响力评估,每一个互联网文件 中都包含唯一的U R L,其功能是定位互联网的资源[7] ,EytanBakshy[8]等从信息发布的U R L出发,将 信息传播模型与口碑效应原理相结合来计算每一个 用户的影响力值。
2微博用户的影响力评估2.1 PageRank算法PageRank算法由Google两位创始人Larry Page 和Sergey B rin提出,它的设计是基于这样一种思 想:被随机冲浪者访问频繁的网页是重要网页,赋予 其高P R值。
PageRank算法的表达式为:PageRankQpJ= 1 - q + q l g(1)M(P i)[(P.)式中,J P,是待研究的页面,P.是一个链人J P,的页面, M(Pi)是互联网中所有链人待研究页面的链接集 合,i(P.)表示页面P.所有的出链集合,^表示阻尼 系数,一般取值为0.85,表示用户到达某页面后继 续浏览下一页面的概率。
随着研究的深人,我们发现PageRank算法仍存 在一些不足之处:①各页面对其指向的页面分配相 同的P R值,这与现实情况不符合;②PageRank算法 仅通过链人链出来的情况来发现高质量网页,忽略 了网页本身的主题相关性,容易产生“主题偏移”的问题。
对此,本文在利用PageRank算法思想进行微 博用户影响力评估时,将用户的自身属性作为评定 因子和分配因子,避免以上两个问题的发生。
2.2用户影响力评估指标对于微博社交网络,综合网络中用户关系和用 户本身其行为特征,构建了用户活跃度、用户人气 值、用户兴趣度和用户价值4个评估指标。
2.2.1用户活跃度微博用户是微博社交网络的核心,用户在微博 社交网络中表现越活跃,对其粉丝的影响越大。
定 义用户的活跃度为:单位时间内用户更新的微博总 —76 —数和参与评论的次数,计算公式为:R. + C.AC.= 1T1(2)式中,表示用户^/在一段时间内的活跃度,R^是 用户y更新的微博总数,包括其原创或转发其他用 户的微博数,C是用户;参与评论的次数,t为统计 时间。
2.2.2用户人气值在微博社交网络中,有的微博用户的粉丝人数 虽然很多,但是在一段时间内粉丝人数增长缓慢,甚 至出现负增长的情况,就是所谓的“掉粉”,而有的 用户的粉丝数在一段时间内一直保持着高速增长,这代表用户具有很强的“吸粉”能力。
定义用户的 人气值为单位时间内用户粉丝的增长数,计算公 式为:P=(3)式中,P代表用户y的人气值,为一段时间内用 户j粉丝的增长数,T为统计时间。
2.2.3用户兴趣度用户对自己关注的用户越感兴趣,转发和评论 其微博的次数占自身转发和评论总次数的比率越 大,用户兴趣度表示用户对自己所关注的用户的感 兴趣程度,计算公式为:A T(i,j)二紙;,.)(4)式中,a t(,',/)表示用户的,对用户y的兴趣度,M(i,')表示用户i转发和评论用户y微博的总次 数,M为用户i转发和评论其所有关注用户微博的 总次数。
2.2.4用户价值综合用户活跃度和用户人气值这两个评估指 标,定义用户价值这一概念,计算公式为:/,.= aAC t + (1 - a)p(5)式中,纟表示用户y的自身价值,A C为用户y的活跃 度,P为用户j的人气值,a为权重因子,利用层次 分析法取a为0.75。
2.3基于PageRank算法的CIRank模型CIRank模型从外在和内在两方面综合考虑用 户的影响力,将用户的自身价值及其粉丝价值作为 评定因子注人CIRank模型表示用户的外在影响力,将粉丝传播用户信息所产生的影响作为用户的内在 影响力。
CIR ank模型对用户影响力的评估分为三 个步骤,先计算用户的外在影响力值,再计算用户的 内在影响力值,最后通过外在影响力值和内在影响力值求得用户的综合影响力值。
用户外在影响力值 的计算公式为:ER(j)= 0.51』+0.5^(6)式中,狀⑴表示用户i的外在影响力,取值为用户i的自身价值与其粉丝价值的加权和,取权重因子为 0.5,认为两者的重要程度是一样的。
用户内在影响 力值的计算公式为:SR(j)= (1 -q)+q i A T(i,j)SR(i)(7)式中,SR())表示用户)的内在影响力,将用户i对用户i的兴趣度A T(i,y)作为用户i影响力值的分 配因子,并加人阻尼系数q使最终计算结果趋于收 敛,q=0.85。
用户综合影响力值的计算公式为:CIR(j)= aER(j)+ pSR(j)(8)式中,C/R(i)表示用户i的综合影响力,取值为用 户外在影响力和内在影响力的加权和,粉丝对用户 微博的转发和评论是使用户信息传播更快更广的关 键,则由其产生的内在影响力应分予更多的权重,通 过对“帕累托二八法则”的理解和研究,本文取a= 0.2,13 =0.8。
本文先初始化微博社交网络各用户的C IR值均为1,再利用式(6) - (8)求得各用户最终收敛的C IR值,即综合影响力值,并对用户进行排名。
3实验结果与分析3.1微博数据的采集和处理近年来,新浪微博对用户数据的采集增加了许 多限制,通过新浪微博开放接口 A P I获取数据这种 高效的方法由于访问频率和权限被加以设置,很难 获取完整数据,而通过传统网络爬虫技术解析微博 页面来获取数据的方法需要爬取数量巨大的网络页 面,效率低下。
本文综合考虑这两种方法的优劣,将 A P I与网络爬虫技术相结合对2017年3月的微博 数据进行采集。