当前位置:文档之家› 中文微博用户标签的调查分析_以新浪微博为例_黄红霞

中文微博用户标签的调查分析_以新浪微博为例_黄红霞

XIANDAI TUSHU QINGBAO JISHU 49
情报分析与研究
容的关联度、情感标签等不同方面的统计分析,并针对 标签推荐服务提出改进建议,从而为用户提供更好的 好友与信息推荐服务。
2 相关研究工作概述
本节主要对标签语义关系、标签的情感分析等相 关研究工作分别进行概述。
( 1) 标签语义关系研究 在社会化标签系统中,标签之间存在一定的隐性 关系。挖掘标签 之 间 的 联 系,有 助 于 更 好 地 理 解 标 签 的语义和用 户 行 为。 一 般 而 言,共 同 标 注 某 一 资 源 的 所有标签都互为共现标签,标签被用户使用标注同一 资源的次数越 多,其 共 现 频 率 越 高,相 关 度 也 就 越 高。 标签的共现关系可以在一定程度上反映出标签之间的 语义关系,如同义关系、层次关系等[1]。 深入到标注过程中,Sinha 认为标注是用户在头脑 中产生各种可以描述某项资源的语义概念,并将这些 语义概念转化为标签赋予该资源的一种分析过程[2,3], Sen 等[4]进一步发现个人意向、社群影响和标签推荐 算法是影响用户标注过程的重要因素。 ( 2) 标签的情感分析研究 用户用 Tag 标记自己感兴趣的东西更加贴近用户 自身的理解和兴趣的表达方式。社会标签也包括很多 主观情感的表达,如果将网络情绪分为“喜悦、愤怒、悲 哀、恐惧、惊慌”等,则 称 为“情 感 分 析 ”,合 称 为“情 感 倾向性 分 析”[5]。Parikh 等[5]、Barbosa 等[6] 和 Davidiv 等[7]均使用机器学习 方 法 训 练 针 对 微 博 的 情 感 分 类 器。其中,Davidiv 等[7] 根 据 微 博 文 本 的 特 点,提 出 微 博的情感符号,将微博文本分为多个情感类,而不仅是 正向情感、负 向 情 感 和 无 情 感。 其 中 情 感 性 标 签 在 词 性上一般为形容词,而与时间和任务相关的标签应选 择名词或名词短语。
( 3) 情感标签的实验数据准备 为了进一步区分标签和了解用户标签与用户发布 的微博内容的关联度,本文对用户标签及微博内容生 成的机器标签分别进行情感标签的统计。其中情感标 签的数据 来 源 为《知 网 》① 情 感 分 析 用 词 词 集,含 正 面 情感词语、负面 情 感 词 语、正 面 评 价 词 语、负 面 评 价 词 语、主张词语和程度级别词语共9 313组中文词语。 通过人工剔除非情感标签的词汇,最终得到与情 感标签匹配的用户标签数为 182,与情感标签匹配的 机器标签数为 289。 3. 4 调研数据格式说明 本文主要采集微博用户描述数据与微博内容数据。 ( 1) 微博用户描述数据 微博用户描述信息主要包括唯一标识信息和基本 描述信息。 唯一标识信息,即用户 ID( UID) ,用户 UID 用于后 台数据管理,在新浪微博中是一个随机生成的 10 位数 字。微博昵称用于用户交流,可以是用户真实姓名,也 可以是个性化的称呼。粉丝数、关注数、微博数、创建时 间和微博认证是用户的活动信息,间接表现了用户的各 种特征,如影响力、活跃程度、兴趣爱好、发言习惯等。 基本描述信息包括: 用户地址、用户标签和性别等 信息,显式地表现了用户的特征,其中用户标签和个人 描述对用户特征的刻画最直接。用户标签是用户自定 义描述自己 职 业、兴 趣 爱 好 等 的 关 键 词。 微 博 用 户 可 以自由选择 词 汇 作 为 其 用 户 标 签。 目 前,在 新 浪 微 博 平台上,每个微博账号最多可以添加 10 个标签。 ( 2) 微博内容数据 微博内容数据从创作上讲,分为原创与非原创; 从 表现形式上讲,分为文字、图片、视频、音乐。微博信息 的组织方式 是 嵌 套 式,方 式 比 较 复 杂。 与 用 户 信 息 一 样,微博信息也有唯一标识符,即微博 ID。微博的内 容限定为 140 字以内,内容简短。
1引言
在微博服务中,微博用户通常根据其职业、兴趣爱好等因素定义一些关键词,这种类型的关键词通常被称为 用户标签( User Tag) 。用户可以自由选择词汇作为其用户标签。用户标签可用于微博好友推荐或微博信息推荐。 目前微博仍处于快速发展阶段,影响力在不断扩大,因此如何更好地利用微博来进行信息推荐服务,具有一定的 研究意义和应用价值。然而,目前关于微博用户标签的研究尚未引起关注,尚缺乏关于微博用户标签与微博内容 关联程度、用户标签语义关系等方面的调查研究。
本文通过以下两种途径获取调研数据: ( 1) 从自然语言处理与信息检索共享平台①下载 NLPIR 微博内容语料库,此微博内容语料库共有 275 823 条微博数据。本文从 NLPIR 微博内容语料库提取 发布微博数大于 100 条的用户所对应的微博数据,共 计 125 个用户。然后再对这些用户进行二次数据筛选 处理,利用用户 ID 进入用户微博主页,查看用户标签, 若该用户标签数小于 4,则删除此用户。通过该方法, 最终从 NLPIR 微博内容语料库获得 59 个用户数据,共 计 64 400 条微博数据。 ( 2) 在新浪微博网络平台上,手动抓取用户的微 博数据。本文制 定 了 一 些 标 准 来 人 工 选 取 用 户 ,如 用 户的影响力、活跃程度、兴趣爱好等。这些标准可以由 用户的粉丝数、关注数、微博数和微博认证等活动信息 间接体现。 通过上述两种途径共采集 100 个微博用户,共计 68 650条微博信息。人均微博数约为 686 条。 3. 3 实验数据准备 ( 1) 用户标签的实验数据准备 获取 100 个微博用户,每个微博用户对应一个 ID, 利用 ID 进入微博主页,采集微博用户的标签。在此数 据准备中,采集用户标签共 825 个,人均标签约 8 个。 ( 2) 机器标签的实验数据准备 对每个 微 博 用 户 发 布 的 微 博 信 息 进 行 关 键 词 提 取。在微博信息的数据准备中,共有 68 650 条微博文 本,对这些微博文本按照用户 ID( UID) 进行汇总,得到 每个用户的微博集合,然后从中提取关键词。 本文利用机器学习的方法从微博集合中提取关键 词,即采用 TextRank 算 法[8],从 博 文 中 提 取 具 有 代 表 性的词语作为博文关键词。TextRank 算法的基本原理 为: 将文本中的词语作为图上的点,根据词语之间的关 系( 如在给定窗口内共现) 作为边,构造词语之间的关 系图,以 PageRank 为基础进行迭代计算,得到每个词 语的 TextRank 值,将得分排在前面的词语作为候选关 键词,还可以依据候选关键词的相邻关系,得到复合关 键词。本文利用开 源 工 具 FudanNLP② 来 提 取 科 学 网
3 调研数据获取
3. 1 调研流程概述 本文以新浪微博为例,进行微博用户标签的调研,
主要步骤为 数 据 获 取、调 研 数 据 分 析。 其 中 数 据 获 取 包括采集微博用户的个人信息及微博内容数据。
调研数据分析主要包括用户信息的统计分析、标 签的语义关系统计分析、用户标签和微博内容的关联
度统计分析、情感标签的统计分析等方面。 3. 2 调研数据获取
本文选择国内最具代表性的微博平台之一———新浪微博作为研究对象,对微博用户标签进行调研。本文采 集 微博用户的用户标签和微博内容数据,利用这些数据进行用 户 特 征 、用 户 标 签 的 语 义 关 系 、用 户 标 签 与 微 博 内
收稿日期: 2012 - 08 - 24 收修改稿日期: 2012 - 10 - 15 * 本文系国家自然科学基金项目“基于可比语料的多语言文本聚类研究”( 项目编号: 70903032) 和中央高校基本科研业务费专项基金项 目“Web 2. 0 环境下多语言标签自动聚类研究”( 项目编号: NUST2011ZDJH15) 的研究成果之一。
表 1 微博用户特征分析
极小值
关注数 2 粉丝数 109 微博数 133
极大值 1 999
16 736 095 38 435
均值 537. 73 867 950. 24 4 799. 90
标准差 527. 852 2 247 765. 8055 7 692. 347
从表 1 中 可 以 看 出,平 均 每 个 用 户 的 关 注 数 是 537. 73,而且关注数呈现正态分布,标准差为 527. 825, 表明在这 100 个用户中绝大多数的用户关注数在 537 左右,已远远超过微博达人的申请标准,即关注数不低 于 100。这 100 个用户中,用户发布微博的平均 值为 4 799. 90。
总第 225 期 2012 年 第 10 期
情报分析与研究
中文微博用户标签的调查分析*
———以新浪微博为例
黄红霞 章成志 ( 南京理工大学信息管理系 南京 210094)
【摘要】以新浪微博为例,采集微博用户的用户标签和微博内容数据,利用这些数据进行用户特征、用户标签的语 义关系、用户标签与微博内容的关联度、情感标签分布等不同方面的调查统计分析。在以上调研基础上,针对标 签推荐服务提出改进建议。 【关键词】社会化标签 微博用户标签 语义标签 标签推荐 【分类号】G353. 1
在 100 个用户中,平均粉丝数为 867 949,粉丝数 的分布情况如表 2 所示:
表 2 微博用户粉丝数分布情况
粉丝数
102 - 103 103 - 104 104 - 105
用户数 25 24 9
粉丝数
105 - 106 106 - 107 107 + +
4 调研数据分析
4. 1 用户特征分析 本文对微博用户的用户信息进行统计,用信息
包括用 户 ID ( UID) 、关 注 数 ( friends _ count) 、粉 丝 数 ( followers_count) 、微博数 ( statuses _count) 。100 个 用 户的关注数、粉丝数、微博数的统计结果如表 1 所示:
① http: / / www. nlpir. org / ② http: / / code. google. com / p / fudannlp /
相关主题