当前位置：文档之家› 中文微博用户标签的调查分析_以新浪微博为例_黄红霞

中文微博用户标签的调查分析_以新浪微博为例_黄红霞

XIANDAI TUSHU QINGBAO JISHU 49
情报分析与研究
容的关联度、情感标签等不同方面的统计分析，并针对标签推荐服务提出改进建议，从而为用户提供更好的好友与信息推荐服务。
2 相关研究工作概述
本节主要对标签语义关系、标签的情感分析等相关研究工作分别进行概述。
（ 1）标签语义关系研究在社会化标签系统中，标签之间存在一定的隐性关系。挖掘标签之间的联系，有助于更好地理解标签的语义和用户行为。一般而言，共同标注某一资源的所有标签都互为共现标签，标签被用户使用标注同一资源的次数越多，其共现频率越高，相关度也就越高。标签的共现关系可以在一定程度上反映出标签之间的语义关系，如同义关系、层次关系等［1］。深入到标注过程中，Sinha 认为标注是用户在头脑中产生各种可以描述某项资源的语义概念，并将这些语义概念转化为标签赋予该资源的一种分析过程［2，3］， Sen 等［4］进一步发现个人意向、社群影响和标签推荐算法是影响用户标注过程的重要因素。（ 2）标签的情感分析研究用户用 Tag 标记自己感兴趣的东西更加贴近用户自身的理解和兴趣的表达方式。社会标签也包括很多主观情感的表达，如果将网络情绪分为“喜悦、愤怒、悲哀、恐惧、惊慌”等，则称为“情感分析 ”，合称为“情感倾向性分析”［5］。Parikh 等［5］、Barbosa 等［6］和 Davidiv 等［7］均使用机器学习方法训练针对微博的情感分类器。其中，Davidiv 等［7］根据微博文本的特点，提出微博的情感符号，将微博文本分为多个情感类，而不仅是正向情感、负向情感和无情感。其中情感性标签在词性上一般为形容词，而与时间和任务相关的标签应选择名词或名词短语。
（ 3）情感标签的实验数据准备为了进一步区分标签和了解用户标签与用户发布的微博内容的关联度，本文对用户标签及微博内容生成的机器标签分别进行情感标签的统计。其中情感标签的数据来源为《知网》① 情感分析用词词集，含正面情感词语、负面情感词语、正面评价词语、负面评价词语、主张词语和程度级别词语共9 313组中文词语。通过人工剔除非情感标签的词汇，最终得到与情感标签匹配的用户标签数为 182，与情感标签匹配的机器标签数为 289。 3． 4 调研数据格式说明本文主要采集微博用户描述数据与微博内容数据。（ 1）微博用户描述数据微博用户描述信息主要包括唯一标识信息和基本描述信息。唯一标识信息，即用户 ID（ UID），用户 UID 用于后台数据管理，在新浪微博中是一个随机生成的 10 位数字。微博昵称用于用户交流，可以是用户真实姓名，也可以是个性化的称呼。粉丝数、关注数、微博数、创建时间和微博认证是用户的活动信息，间接表现了用户的各种特征，如影响力、活跃程度、兴趣爱好、发言习惯等。基本描述信息包括：用户地址、用户标签和性别等信息，显式地表现了用户的特征，其中用户标签和个人描述对用户特征的刻画最直接。用户标签是用户自定义描述自己职业、兴趣爱好等的关键词。微博用户可以自由选择词汇作为其用户标签。目前，在新浪微博平台上，每个微博账号最多可以添加 10 个标签。（ 2）微博内容数据微博内容数据从创作上讲，分为原创与非原创；从表现形式上讲，分为文字、图片、视频、音乐。微博信息的组织方式是嵌套式，方式比较复杂。与用户信息一样，微博信息也有唯一标识符，即微博 ID。微博的内容限定为 140 字以内，内容简短。
1引言
在微博服务中，微博用户通常根据其职业、兴趣爱好等因素定义一些关键词，这种类型的关键词通常被称为用户标签（ User Tag）。用户可以自由选择词汇作为其用户标签。用户标签可用于微博好友推荐或微博信息推荐。目前微博仍处于快速发展阶段，影响力在不断扩大，因此如何更好地利用微博来进行信息推荐服务，具有一定的研究意义和应用价值。然而，目前关于微博用户标签的研究尚未引起关注，尚缺乏关于微博用户标签与微博内容关联程度、用户标签语义关系等方面的调查研究。
本文通过以下两种途径获取调研数据：（ 1）从自然语言处理与信息检索共享平台①下载 NLPIR 微博内容语料库，此微博内容语料库共有 275 823 条微博数据。本文从 NLPIR 微博内容语料库提取发布微博数大于 100 条的用户所对应的微博数据，共计 125 个用户。然后再对这些用户进行二次数据筛选处理，利用用户 ID 进入用户微博主页，查看用户标签，若该用户标签数小于 4，则删除此用户。通过该方法，最终从 NLPIR 微博内容语料库获得 59 个用户数据，共计 64 400 条微博数据。（ 2）在新浪微博网络平台上，手动抓取用户的微博数据。本文制定了一些标准来人工选取用户，如用户的影响力、活跃程度、兴趣爱好等。这些标准可以由用户的粉丝数、关注数、微博数和微博认证等活动信息间接体现。通过上述两种途径共采集 100 个微博用户，共计 68 650条微博信息。人均微博数约为 686 条。 3． 3 实验数据准备（ 1）用户标签的实验数据准备获取 100 个微博用户，每个微博用户对应一个 ID，利用 ID 进入微博主页，采集微博用户的标签。在此数据准备中，采集用户标签共 825 个，人均标签约 8 个。（ 2）机器标签的实验数据准备对每个微博用户发布的微博信息进行关键词提取。在微博信息的数据准备中，共有 68 650 条微博文本，对这些微博文本按照用户 ID（ UID）进行汇总，得到每个用户的微博集合，然后从中提取关键词。本文利用机器学习的方法从微博集合中提取关键词，即采用 TextRank 算法［8］，从博文中提取具有代表性的词语作为博文关键词。TextRank 算法的基本原理为：将文本中的词语作为图上的点，根据词语之间的关系（如在给定窗口内共现）作为边，构造词语之间的关系图，以 PageRank 为基础进行迭代计算，得到每个词语的 TextRank 值，将得分排在前面的词语作为候选关键词，还可以依据候选关键词的相邻关系，得到复合关键词。本文利用开源工具 FudanNLP② 来提取科学网
3 调研数据获取
3． 1 调研流程概述本文以新浪微博为例，进行微博用户标签的调研，
主要步骤为数据获取、调研数据分析。其中数据获取包括采集微博用户的个人信息及微博内容数据。
调研数据分析主要包括用户信息的统计分析、标签的语义关系统计分析、用户标签和微博内容的关联
度统计分析、情感标签的统计分析等方面。 3． 2 调研数据获取
本文选择国内最具代表性的微博平台之一———新浪微博作为研究对象，对微博用户标签进行调研。本文采集微博用户的用户标签和微博内容数据，利用这些数据进行用户特征、用户标签的语义关系、用户标签与微博内
收稿日期： 2012 － 08 － 24 收修改稿日期： 2012 － 10 － 15 * 本文系国家自然科学基金项目“基于可比语料的多语言文本聚类研究”（项目编号： 70903032）和中央高校基本科研业务费专项基金项目“Web 2． 0 环境下多语言标签自动聚类研究”（项目编号： NUST2011ZDJH15）的研究成果之一。
表 1 微博用户特征分析
极小值
关注数 2 粉丝数 109 微博数 133
极大值 1 999
16 736 095 38 435
均值 537． 73 867 950． 24 4 799． 90
标准差 527． 852 2 247 765． 8055 7 692． 347
从表 1 中可以看出，平均每个用户的关注数是 537． 73，而且关注数呈现正态分布，标准差为 527． 825，表明在这 100 个用户中绝大多数的用户关注数在 537 左右，已远远超过微博达人的申请标准，即关注数不低于 100。这 100 个用户中，用户发布微博的平均值为 4 799． 90。
总第 225 期 2012 年第 10 期
情报分析与研究
中文微博用户标签的调查分析*
———以新浪微博为例
黄红霞章成志 ( 南京理工大学信息管理系南京 210094)
【摘要】以新浪微博为例，采集微博用户的用户标签和微博内容数据，利用这些数据进行用户特征、用户标签的语义关系、用户标签与微博内容的关联度、情感标签分布等不同方面的调查统计分析。在以上调研基础上，针对标签推荐服务提出改进建议。【关键词】社会化标签微博用户标签语义标签标签推荐【分类号】G353． 1
在 100 个用户中，平均粉丝数为 867 949，粉丝数的分布情况如表 2 所示：
表 2 微博用户粉丝数分布情况
粉丝数
102 － 103 103 － 104 104 － 105
用户数 25 24 9
粉丝数
105 － 106 106 － 107 107 + +
4 调研数据分析
4． 1 用户特征分析本文对微博用户的用户信息进行统计，用信息
包括用户 ID （ UID）、关注数（ friends _ count）、粉丝数（ followers_count）、微博数（ statuses _count）。100 个用户的关注数、粉丝数、微博数的统计结果如表 1 所示：
① http： / / www． nlpir． org / ② http： / / code． google． com / p / fudannlp /

e商务文档

中文微博用户标签的调查分析_以新浪微博为例_黄红霞

相关文档推荐：