当前位置:文档之家› 新浪微博网信息传播分析与预测_曹玖新

新浪微博网信息传播分析与预测_曹玖新

第 37 卷 第 4 期 2014 年 4 月
计 算 机 学 报 CHINESE JOURNAL OF COMPUTERS
Vol.37 No.4 Apr.2014
新浪微博网信息传播分析与预测
曹 玖 新1) 吴 江 林1) 石
伟1) 刘
波1) 郑
啸 罗军舟 1),2)
1)
1)(东南大学计算机科学与工n1) WU Jiang-Lin1) SHI Wei 1) LIU Bo1) ZHENG Xiao1),2) LUO Jun-Zhou1)
1)(School of Computer Science and Engineering,Southeast University,Nanjing 210096) 2)(School of Computer Science,Anhui University of Technology,Maanshan,Anhui 243002)
Keywords microblog;retweet;information diffusion;prediction;social network;social computing
收稿日期:2013-06-20;最终修改稿收到日期:2014-01-23.本课题得到 国 家 “九 七 三 ”重 点 基 础 研 究 发 展 规 划 项 目 基 金 (2010CB328104)、 国家自然科学基金(61272531,61202449,61272054,61370207,61370208,61300024,61320106007)、国 家 “八 六 三 ”高 技 术 研 究 发 展 计 划 项目基金(2013AA013503)、高等学校博士点学科专项 科 研 基 金(2011009213002)、江 苏 省 网 络 与 信 息 安 全 重 点 实 验 室 项 目(BM2003201)、 计算机网络和信息集成教育部 重 点 实 验 室 (东 南 大 学)项 目(93K-9)资 助.曹 玖 新,男,1967 年 生,博 士,教 授,博 士 生 导 师,中 国 计 算 机 学 会(CCF)会员,主要研究领域为服务计算、网络安全与社会 计 算.E-mail:jx.cao@seu.edu.cn.吴 江 林,男,1988 年 生,硕 士 研 究 生,主 要 研究方向为社会计算.石 伟,男,1987年生,硕士研究生,研 究 方 向 为 社 会 计 算.刘 波,女,1975 年 生,博 士,副 教 授,中 国 计 算 机 学 会 (CCF)会员,主要研究领域为普适计算、社会计算.郑 啸,男,1975年生,博士,教授,中国 计 算 机 学 会(CCF)会 员,主 要 研 究 领 域 为 服 务 计算、无线局域网.罗军舟,男,1960年生,博士,教授,博士生导师,中国 计 算 机 学 会(CCF)会 员,主 要 研 究 领 域 为 下 一 代 网 络 体 系 结 构、 协 议 工 程 、网 络 安 全 、网 格 与 云 计 算 、无 线 局 域 网 .
780
计 算 机 学 报
2014 年
1 引 言
随着 互 联 网 技 术 的 普 及,更 多 的 人 享 受 到 互 联 网带来 的 便 利 和 乐 趣.尤 其 是 近 几 年 在 线 社 交 网 络 的 [1] 迅 速 发 展,人 们 越 来 越 多 地 参 与 到 互 联 网 上 丰富的 社 交 活 动 中.以 国 内 最 大 的 微 博 网 站——— 新浪微博为例,截至 目 前 新 浪 微 博 的 注 册 用 户 已 超 过5亿,每天有超 过 1 亿 条 微 博 内 容 产 生.事 实 上, 以微博为代表的社交网络已经成为当前最重要的媒 体 之 一 .因 此 ,研 究 用 户 的 在 线 行 为 以 及 信 息 的 传 播 规律将有助于网络公司对每个用户的偏好进行更为 准 确 地 把 握 ,并 将 其 可 能 感 兴 趣 的 话 题 信 息 、其 他 用 户或者用户社群推 荐 给 用 户;政 府 部 门 则 可 以 通 过 预测消息传播范围 和 用 户 观 点 态 度,准 确 判 断 舆 论 的 热 点 问 题 ,以 便 及 时 采 取 科 学 的 控 制 和 引 导 .
不 同 ,小 世 界 模 型 人 们 之 间 的 距 离 都 比 较 短 ,但 实 际 上电子 邮 件 传 播 有 的 要 经 过 数 百 个 中 间 节 点.在 Kossinets等 人 的 [10] 工 作 中,作 者 首 先 对 社 会 网 络 数据进行网络聚类,之 后 生 成 特 征 结 构 传 播 树 并 得 到 异 步 响 应 时 间 ,最 终 提 出 并 描 述 了 一 个 概 率 模 型 . 也有 不 少 研 究 采 用 SIR、SIS 等 经 典 传 播 模 型 对 [11] 信息传播扩散进行分析研究.
Abstract In this paper,research is conducted on Sina microblog for the purpose of analyzing information forwarding and propagation characteristics,as well as predicting propagation behavior. Based on a large number of online data from Sina microblog,a variety of possible factors that affect users’retweeting behavior have been analyzed and various features have been mined and modeled.Three comprehensive features,based on user attributes,social relations and microblog contents,are used to predict users’retweet behavior by machine learning classification algo- rithms.The microblog topology graph on following relation is constructed,and the cascade probability model is used to predict the propagation paths of a tweet,then a tweet’s influence can be predicted.Experiment indicates that Sina microblog meets complex network characteristics, and social characteristics have a greater influence on forwarding behavior.Furthermore,it verifies the validity of propagation prediction.
2)(安徽工业大学计算机学院 安徽 马鞍山 243002)
摘 要 文中以新浪微博为研究对象,以分析新浪微 博 的 信 息 转 发 与 传 播 特 征 为 研 究 目 的 ,并 对 传 播 行 为 进 行 预 测.在获取大量新浪微博在线数据的基础上,对各种 可 能 影 响 用 户 转 发 行 为 的 因 素 进 行 统 计 、分 析,挖 掘 各 种 影 响 因素特征并进行建模.提出基于用户属性、社交关系 和 微 博 内 容 三 类 综 合 特 征,使 用 机 器 学 习 的 分 类 方 法,对 给 定 微博的用户转发行为进行预测.基于微博网关注关系拓扑,利用概率级联模型对 给 定 微 博 的 转 发 路 径 进 行 预 测 ,为 预测微博的影响范围提供依据.文中通过实验分析了 新 浪 微 博 符 合 复 杂 网 络 特 征 、社 交 类 特 征 对 转 发 行 为 有 重 要 影 响 ,并 验 证 了 传 播 预 测 的 有 效 性 .
研究者 对 不 同 类 型 的 多 种 在 线 社 交 网 络 进 行 了 研 究 ,包 括 Flickr[12]、Blogs[13]、Digg[14]以 及 YouTube[15]等,这些研究揭示了 信 息 在 社 交 网 络 上 传播所表现出来 的 规 律.Fan 等 人 对 [16] 新 浪 微 博 的 拓扑及信息扩散进 行 了 研 究,发 现 新 浪 微 博 的 拓 扑 结构具有小世界及 无 标 度 特 性,度 分 布 服 从 幂 律 分 布,热 门 事 件 的 扩 散 拓 扑 呈 现 星 形 或 两 级 结 构. Webberley 等 人 对 [17] 信 息 在 Twitter 上 传 播 的 深 度 、产 生 影 响 的 广 度 以 及 转 发 延 迟 进 行 了 研 究 ,作 为 对用户行为模式和转发规律的初步研究对本文的研 究 工 作 具 有 很 好 的 借 鉴 意 义.Galuba 等 人[18] 对 Twitter上 URL 信 息 在 用 户 之 间 传 播 规 律 进 行 了 研究,提 出 了 一 个 预 测 URL 转 发 路 径 预 测 模 型. Yang等 人 发 [19] 现 在 Twitter上 信 息 内 容 对 相 关 用 户的提及率是影响 该 信 息 传 播 速 度、规 模 及 范 围 的 重要因素.
Liben-Nowell等 人 较 [9] 为 全 面 地 讨 论 了 信 息 在真实社会网络中传播的特征及与之相关的一系列 问 题 ,并 且 指 出 :精 确 的 预 测 信 息 传 播 路 径 是 非 常 困 难的;使用简单的预 测 模 型 往 往 与 真 实 情 况 相 距 甚 远,比如 Email的实 际 传 播 模 式 与 小 世 界 传 播 模 型
关 键 词 微 博 ;转 发 ;信 息 传 播 ;预 测 ;社 交 网 络 ;社 会 计 算 中图法分类号 TP393 DOI号 10.3724/SP.J.1016.2014.00779
相关主题