当前位置:文档之家› 微博博主的特征与行为大数据挖掘

微博博主的特征与行为大数据挖掘


丝数、关注数、博客地址、教育 经历,仅占所有用户中的 3.8%。 微博数-人数分析
经历以及认证等级。
但在这些用户中,近 83.2% 的用
我们通过对数据集中发微博
基本统计特征分析
户拥有本科或者研究生学历。同 数所对应的人数进行统计,绘制
在基本统计特征分析中,我 们着重研究了地理分析、性别分 析、教育和年龄分析三个指标, 从中获得了以下问题的答案 :
观评估采用基于量表的调查问卷 转发率之间存在正相关关系。此 论中出现词频的相关性,发现二
方式,时间和经济成本较高。本 外,研究者还调查了在政治选举 者存在明显的联系。文献 [11] 利
文利用价值观和词语运用之间的 这一特殊时期有关政治的讨论 用朴素贝叶斯 (Naïve Bayes) 分
语言学联系,根据用户发表在社 是如何在那些活跃的有影响力的 类器对博客用户进行自我状态量
y = 1.9771x + 19.y0=4 y18=519855.97766x300.5122.68x 1.9771
ln(用户数)
12
10
8
6
4
2
0
0
2
4
6
8
10
12
ln(微博数)
图3 微博数和人数对数关系
y = 185766301.8xy1.=9771 1.9771x + 19.04
分 布 (2),[494, 613070] 符 合y =幂1I8n5fl7u6e6n3c0e其1( .8中)x=,1.(97f7o1 llowers 是用•户fo的llo粉wing) / posts
了社交网络的大数据环境。针对 指从整体上来认识客观世界,快 户意图做了深入研究。
社交网络大数据的统计分析和数 速计算大数据的宏观特征与结
其次,针对用户的行为信息,
据挖掘方法成为了商业应用或科 构,是整体认识客观世界快速而 从微观层面入手,从社交网络用
学研究重要工具之一。与此同时, 又有效的方法 ;见微是指在宏观 户的行为(原创微博、转发微博、
户在现实生活中的作息规律、行 属性,采用面向用户群体的宏观 用于描述微博用户的行为活动,
为轨迹并进一步构成了用户的行 特征分析。在此,我们提出一种 并设计了行为矩阵分析法,这对
为特征。三是用户的精神特征属 “微博生态系统”,即一个包含微 加深对用户行为的理解,对于好
性,此类信息可通过用户言论的 博用户、用户发帖以及用户其他 友推荐、身份推理、群体分析以
虽然也有一些对微博行为规律的 计中所用词汇并不适用于社交网
相关工作
研究,但是主要仍停留在对整体 络的口语化语言环境。 数据的统计分析及建模阶段。如:
首 先, 宏 观 层 面 的 隐 私 挖 掘和保护最先成为社会关注的热 点。文献 [4] 研究了脸谱和推特
易兰丽揭示用户微博信息转发评 论行为的统计特征并构建理论模 型 [9]。此外,研究表明转发评论
我 们 采 用 函 数 回 归 的 方 法,
用户 )。数据集中包含多个字段,
受教育与年龄分布的统计结 对微博数、粉丝数以及关注数三
例如微博 ID、性别、昵称、生日、 果如图 2 所示。在我们的数据集 个数值特征进行分析,得出其拟
地区、自我介绍、发微博数、粉 中,大约有 66.2 万人填写了教育 合函数。
交网络上的公开言论自动对其进 用户之间进行的。与此同时,文 表 (Egogram) 性格分类预测,取
行价值观评估,从而掌握用户的 献 [4] 对新浪微博和推特上的用 得了较好的成效。IBM 数据分析
行为偏好及社会需求。
户行为进行了比较,研究了访问 师米歇尔·凯利 (Michael Kelley)
社 交 网 络 中 大 量 公 开 的 个 方式和用户的写作风格和文本特 在报告中指出,可以通过 200 条
动互联网上的快速发展,社交网 在的心理状态。
征分析、数字化特征分析以及文
络用户的大量个人信息在互联网
在大数据应对的认识论与方 本特征分析,进而充分掌握新浪
上公开,原本碎片化的信息在大 法论方面,我们提出“知著、见微、 微博用户的各种宏观信息,据此
数据环境下被整合,并由此形成 晓意”的论点 [1],其中 :知著是 构建了用户影响力模型,并对用
人数据为上述三种分析提供了 征,比较了两个平台上的话题和 推特,分析得到人的需求、大五
相对便利的条件。本文以新浪 情感极性 ;最后还调查研究了微 类性格特征以及价值观,不过该
微博为例,通过数据抓取、模 博用户行为的时间动态模型,例 报告并未给出具体的分析方法。
型 分 析 以 及 实 例 研 究 等 方 法, 如用户兴趣随时间变化的情况。 一项基于安然 (Enron) 邮件数据
电子商务、社交网络、组织行为 为分析展开。研究发现,针对特 与 LIWC2001(Linguistic Inquiry
分析以及舆情监控和预测等多个 殊政客或政党的积极和消极情绪 and Word Count,语言获得和词
领域得到广泛应用。传统的价值 的用词数量,在推客 (tweet) 的 汇计数)中预定义词汇在个人言
往认为的接近 1 :1。出现这种现 人更易于接受新鲜事物。
分析所用的数据集采集自新 浪,经过大量筛选处理,清洗后 的数据规模为 1700 万 ( 摒除大量
象的主要原因可能是男女用户Fra bibliotek 业的差异性使得女性能够在微博 上花费更多的时间。
数值化特征分析及影响 力模型
机器自动生成的僵尸用户及休眠 受教育与年龄分析
90 80 70 60 50 40 30 20 10
0
79 71 56 33 21 19 16 15 14 14 11 10 8.9 8.8 8.6 7.9 7.8 6.5 5.8 5.6 5.5 5.4 5.3 5.1 4.9 4.7 4.4 4.4 4.4 4.2 4.2 4.1 4 3.9 11
可以用来在现实生活中对社交网 网络大数据的挖掘工作,从隐私 要是限于写作风格和文本特征,
络用户进行定位。二是用户的行 挖掘的角度来看社交网络隐私的 对其中某个客观因素的研究,以
为属性,包括发帖、转发、评论 保护。
及简单的统计研究等。基于上述
关注的时间和频率等,反映了用
首先,针对用户的基本社会 问题,我们提出了行为矩阵模型,
0.00%
用户 累积百分率
图2 受教育与年龄分布图
38
y = 0.5226x + 9.8307
y = 0.5226x + 9.8307y = 18595.第97 1x00 卷.522 6 第 6 期 2014 年 6 月 y = 18595.97 x y 0.5226= y0=.5212.697x7+19x.+831097.04
理状态,提出了利用语义分析自 评论数、转发数、提及数和粉丝 的 大 量 研 究 工 作 均 证 实 了 性 格
动评估社交网络用户价值观的方 数来研究用户影响力。
和词汇运用之间存在着决定性
法。价值观作为个性中表明社会
其次,从微观层面来讲,大 的 联 系。 文 献 [10] 分 析 了 参 与
需求和欲望的一个重要方面,在 量研究工作针对社交网络用户行 者 的 大 五 类 (BIG5) 人 格 1 分 数
图1 用户密度分布图
450000 400000 350000
用 300000 户 250000
200000 150000 100000
50000 0
0-10 11-20 21-30 31-40 41-50 51-60 61-
年龄
100.00%
80.00% 累 积
60.00% 百 分
40.00% 率
20.00%
宏观特征大数据挖掘
本节主要研究在宏观角度
(Twitter) 的基本统计分布,包括 数与粉丝数关系密切,粉丝数越 下对新浪微博隐私挖掘的分析结
用户的地理、性别、种族分布等; 多的用户发布的微博信息更容易 果,其中重点包括微博数据基本
文献 [5] 发现社交网络中用户的 吸引大量的转发和评论。我们在 统计信息、数值特征分析、用户
大数据的挖掘能力也威胁到了用 结构指导下,有针对性地研究有 关注微博用户、发表评论等)中
户的个人隐私保护。
代表性的微观数据,这里并不需 提取特定的行为模式 [3]。研究表
目前,按照隐私内容,社交 要对每一个微观都进行计算 ;晓 明,微博用户的群体行为表现出
网络的隐私及保护问题可分为三 意是指大数据语言内容的含义, 两段阶梯幂率分布的规律。但由
类 :一是用户基本属性、身份及 是语义的理解与认知,属于自然 于用户行为记录的不规律性与随
社会关系信息,包括真实姓名、 语言理解的范畴。本文将从“知 意性,加上其受制于用户本人的
性别、年龄、所属机构、好友关 著、见微、晓意”这三个维度展 习惯、生活、学习或工作等客观
系以及社会影响力等,这些信息 现针对上述三类用户隐私的社交 因素,个体行为的研究目前还主
潜在语义分析进行计算,包括用 活动行为的有机整体。我们结合 及精准营销等领域的研究和应用
36
第 10 卷 第 6 期 2014 年 6 月
都有着深刻的意义。
转发树来研究用户影响力 ;文献
最 后, 从 语 义 理 解 层 面 来
最 后, 我 们 针 对 用 户 的 心 [7] 通过综合考虑用户的发帖数、 讲, 语 言 心 理 学 和 计 算 文 体 学
国家在线社交网络的总体特点。
性别分布分析的结果显示, 时, 从 年 龄 分 布 上 来 看, 从 21
从国家安全的角度来看,超大规 新浪微博中女性用户达到 55%, 岁到 40 岁的用户约占所有用户
模人群的各类统计数据存在宏观 男性用户则只占 45%,并非像以 的 75%。这些数据充分说明年轻
相关主题