当前位置:文档之家› 基于标签法的微博分类的研究:以新浪微博为例

基于标签法的微博分类的研究:以新浪微博为例

论文名称:基于标签法的微博分类的研究:以新浪微博为例拟研究的主要内容和思路:1.引言2.新浪微博的分类方法2.1新浪微博用户自助实现的分类2.2新浪微博系统提供的分类3.微博标签生成方法3.1标签生成方法设计思路3.2用户微博管理方法3.3运用层次分析法设置各个标签的权重3.3.1AHP方法:3.3.2微博三级标签体系4.总结及申明基于标签法的微博分类的研究:以新浪微博为例朱洋(华中师范大学信息管理学院)摘要:微博在我国快速发展,成为大众传播信息的重要载体、及时反映社情民意的网络平台,更是构架党和政府部门与普通民众交流的桥梁和纽带。

本文以新浪微博为例,对标签法在微微博内容的分类与检索进行研究,运用层次分析法建立三级标签体系,将综合发布者的微博标签、转发者和收藏者添加的微博标签来自动生成系统标签的方法为标准对微博进行了分类,以方便用户进行管理微博和检索微博。

关键词:微博标签法1.引言微博,即微博客(MicroBlog)的简称,是一个基于用户关系的信息分享、传播以及获取平台,用户可以通过WEB、WAP以及各种客户端组建个人社区,以140字左右的文字更新信息,并实现即时分享。

从 2006 年 Twitter 网站推出至今,微博发展迅速,在国内发展最好的是新浪微博。

新浪微博()是新浪旗下网站,是中国最具影响力的社会化媒体平台,是一个基于用户关系的信息分享、传播以及获取的平台。

新浪微博于2009年8月14日开始内测。

根据新浪公布的最新数据,截至2012年5月16日,新浪微博注册用户数已增至3.24亿。

由于微博具有单一性、迅捷性、碎片化、个性化、开放性、整合性、实时性和跟随性等特点,使得微博存在信息冗余、自发的组织性不强等问题,其所负载和传播的内容也呈现碎片化,给人良莠不齐、垃圾信息泛滥的印象。

因此,需要不断改善微博信息资源的组织方式,才能不断提高其生存能力。

对微博网站信息分类问题进行研究,不仅可以指导微博网站对信息的分类组织,也可以促进对网站信息分类问题研究的深入。

已有学者对微博进行了研究,主要集中在其传播机制、盈利、应用等问题上。

近年来,有一些学者开始对微博的信息组织问题进行研究:柯芳微认为博客作为一个信息生产系统,其由“混沌”到组织化的过程,其实可以看作一个“信息自组织”过程,信息会不断地有向聚合——群组界面信息聚合,个人界面信息聚合。

吴胜和苏琴根据微博的实时性、碎片化、跟随性特点,认为用户是微博网站信息分类时考虑的重要要素,提出了直接法、职能法、网战法、矩阵法四大微博网站信息分类模式,得出职能法是微博网站中使用频率最高的分类模式的结论。

刘乙坐和黄奇杰从传播的角度对微博进行分类,分为个人用户微博和组织用户微博。

陈渊,林磊,孙承杰和刘秉权通过对用户特征的分析,提出了给用户推荐标签,将用户标签化,这样来达到微博信息组织化的目的。

目前,基于标签法的微博分类的研究几乎是一片空白,原因在于微博网站作为web2.0网站,用户的交互性非常强,没有一个很好的机制能够对发布的微博进行主题和内容进行分类。

而现在一些web2.0网站的普遍做法是鼓励用户在发布内容时能够自定义主题或者贴上主题标签。

然而仅仅是靠发布者提供的主题给微博进行分类是很不可靠很不切实的。

微博网站信息标签分类问题进行研究,不仅可以指导微博网站对信息的分类组织,也可以为用户提供一个自行管理微博和检索的机制。

本文首先回顾已有的网站信息分类、博客信息分类研究成果;在此基础上,提出由发布者——转发者——收藏者对微博进行标签化分类的机制。

考虑到微博网站的相似性,本文以新浪微博为样本对标签法在微博分类上的应用进行研究。

2.新浪微博的分类方法新浪微博目前提供的微博分类主要突显在用户管理微博和微广场的几个应用功能上。

2.1新浪微博用户自助实现的分类用户可以对自己所关注的微博账号进行分组,将所关注的人和组织进行统一分类,如图1是某微博账号上的分组。

分为相互关注、特别关注、名人明星、同事等。

新浪微博提供多个标签的分组,比如可以把某账号同时分到特别关注和名人明星中。

新浪微博的分组功能基本上可以满足用户对关注者分组的需求。

图1用户对微博的分类表现在发布微博和收藏微博时可以选择添加标签。

在发表微博时不会提示添加标签,在发表之后可以给微博进行添加标签;在发表微博时可以在最前面加上“#主题#”表示微博的主题。

新浪微博没有在发表微博时提供标签是考虑到用户提供标签往往不够准确,而且标签没有必要给发布者的粉丝看到。

在收藏微博时系统会提示添加标签,可以添加最多两个标签,这样方便用户进行微博管理和查找微博。

如图2所示:图22.2新浪微博系统提供的分类新浪微博的广场一栏中有多个功能应用,其中名人堂、微话题、热门微博等提供了对微博进行分类的检索功能。

如下图3所示,用户可以在名人堂中对名人进行搜索,可以再搜索框中输入搜索,也可以点击分类标签一层层搜索。

图3如下图4所示,用户可以通过“微话题”来搜索感兴趣的微博。

图4如图5所示,用户可以在“热门微博”中找到时下热门话题。

热门话题的分类简单,每一大项最多分为三类。

如体育的下一层分类是全部、名人、媒体。

图5最直接的搜索方式是通过新浪微博的搜索框进行主题搜索,作为中国最大门户网站新浪网的子品牌,新浪微博的搜索功能还是很强大的,但是往往搜索得到的微博数量过多而不够准确。

可以发现,新浪微博虽然提供了多种多样的检索方式,但是没有一个很合理的机制对微博进行统一分类。

3.微博标签生成方法根据上面的论述,在微博发展的现阶段,急需建立一个微博分类的机制,而研究表明标签法检索是可行的,下文将详细探讨这一方法。

3.1标签生成方法设计思路设立两级标签,每条微博最多可以设置1个一级标签,3个二级标签,3个三级标签。

只有添加了一级标签才能添加二级和三级指标标签,没有有添加了二级标签也能添加三级标签。

通过对微博的内容特征的分析,由系统将设置若干个一级标签和二级标签。

一级标签可以根据实际情况由系统添加;二级标签和三级标签可以根据用户使用频度由系统自动生成。

比如某微博是描述本届欧洲杯的某些球员“思考人生“的现象,它的一级标签为体育,二级标签为足球,三级标签为欧洲杯。

用户发表微博时可以添加标签“思考人生”,当该微博被转发超过一定频次时,系统会在第三级标签中自动添加“思考人生”这一标签。

但由于该标签只具有时效性,当用户不再关注该标签时,系统会再删除该标签,这样就避免了二级标签和三级标签的数量无限的增长。

每当一个微博将要被浏览者或粉丝转发和收藏时,转发者或收藏者可以按照自己的理解为此微博添加标签。

系统会记录添加的标签,这样当被转发或收藏的次数增加到一定的规模,每一条微博就有多个标签,然后系统会将频次少的标签过滤掉,最多留下1个一级标签,3个二级标签,3个三级标签。

这样这条微博的三级标签体系就形成了。

用户就可以使用标签检索需要的微博了。

以下是具体的以浏览者和粉丝添加标签作为标签源的标签生成过程:(1)微博用户写好微博,接着用户按照个人意愿选择是否添加标签,最后发表微博。

(2)浏览者或粉丝转发或者收藏该微博,有选择性地为微博添加标签。

(3)系统对收集所有的标签计算其权重,每个标签的权重即为该标签在收集的所有标签中出现的次数。

(4)系统保留有限个权重高的标签,并按照一级标签在前低级标签在后、同级标签由高到低的原则给出微博的标签结果。

方法流程图如图 6所示。

图6.标签生成方法流程图3.2用户微博管理方法微博用户给自己发表的微博标签可能会因为系统的标签生成方法而改变,但是用户在自己的主页中查看和管理微博时的标签都是自己最初设定的。

也就是发布者通过自己的主页检索微博所使用的标签与其他用户检索发布者所使用的标签是不一样的。

同理用户转发或者收藏的微博也属于是自己发布的微博,同样在自己的主页中搜索时使用的是自己转发和收藏时设定的标签。

这样就保证了用户通过标签来管理微博的方法的实现。

3.3运用层次分析法设置各个标签的权重3.3.1AHP方法:层次分析法(Analytic Hierarchy Process简称AHP)是美国运筹学家T.L.Saaty教授于70年代初期提出的,AHP是对定性问题进行定量分析的一种简便、灵活而又实用的多准则决策方法。

它的特点是把复杂问题中的各种因素通过划分为相互联系的有序层次,使之条理化,根据对一定客观现实的主观判断结构(主要是两两比较)把专家意见和分析者的客观判断结果直接而有效地结合起来,将一层次元素两两比较的重要性进行定量描述。

而后,利用数学方法计算反映每一层次元素的相对重要性次序的权值,通过所有层次之间的总排序计算所有元素的相对权重并进行排序。

3.3.2微博三级标签体系目标层一级标签二级标签三级标签三级标签体系A娱乐A1. 人物A2. 媒体A3. 电影A4. 音乐An. ……A11.首字母为A的明星A12.首字母为B的明星……A31.爱情片A32.动作片……B体育B1.足球B2.篮球B3.奥运会……Bn.………………C政治C1. 国内政治C2. 国外政治C3. ……Cn.………………D科技D1. 电脑D2. 手机D3. ……Dn.……………………………………………………当然这样分类的类目体系还很不够完善,就可以借鉴现有的比较权威的类目体系来解决这一问题。

比如可以利用信息组织中用于图书分类的《中图法》。

《中图法》是我国目前通用的图书分类工具,基本涵盖了各个知识领域,包括马列毛邓、哲学等5大类部,马列主义、毛泽东思想等22个基本大类。

如果参照中图法对新浪微博的类目体系进行改进,同时根据微博的特点对部分类目进行重新组合和扩展,就能加以完善。

由于本文旨在研究基于标签的微博分类的研究,暂且对类目体系的完善不做过多的考虑。

4.总结及申明本文对目前的微博检索方式进行了分析,选择了最具代表性的微博平台之一新浪微博为例,对其标签法的分类方式进行了说明。

随后提出了由发布者——转发者——收藏者对微博进行标签化分类的三级标签分类机制,旨在方便用户检索微博和管理微博。

由于本人的专业知识有限,而且时间紧迫,该研究只能算是个半成品,因为还缺乏对三级分类体系的优化和技术可能性的分析。

总之仅仅只限于理论层面,没有运用于实践。

参考文献[1] 熊回香,金晓耕.Web2·0环境下信息组织的优化研究[J].现代情报,2012,32(4)[2] 陈渊,林磊,孙承杰, 刘秉权.一种面向微博用户的标签推荐方法[J].智能计算机与应用,2011,1(3)[3] 沈振萍,谢阳群.基于微博客的竞争情报搜集研究:以新浪微博为例[J].情报杂志,2012,31(5)[4] 刘乙坐,黄奇杰.传播学视野下的微博基本分类初探[J].现代服务,2011,5[5] 武胜,苏琴.微博网站信息分类模式研究[J].图书情报工作网刊,2011[6] 柯芳.微博客的信息自组织研究[D].武汉:华中科技大学,2010。

相关主题