情报学报 ISSN1000-0135第29卷第4期625-633,2010年8月JOURNALOFTHECHINASOCIETYFORSCIENTIFICANDTECHNICALINFORMATIONISSN1000-0135Vol.29 No.4,625-633August 2010收稿日期:2009年3月23日作者简介:魏建良,男,1980年生,毕业于南京大学信息管理工程专业,管理学博士,浙江工商大学讲师,主要研究领域:信息服务与电子商务。
E-mail:jianliang53@gmail.com。
朱庆华,男,1963年生,毕业于南京大学情报学专业,管理学博士,南京大学信息管理系教授,博士生导师,主要研究领域:网络信息资源管理。
1) 基金项目:国家自然科学基金(70671094),浙江省自然科学基金重点项目(Z109061F)。
doi:10.3772桙j.issn.1000-0135.2010.04.007基于社会化标注的个性化推荐研究进展1)魏建良1 朱庆华2(1畅浙江工商大学计算机与信息工程学院,杭州310018;2畅南京大学国家信息资源管理南京研究基地,南京210093)摘要 社会化标注是当前互联网研究中的一个热点。
本文在对社会化标注的内涵和结构加以简单介绍的基础上,重点探讨了基于社会化标注进行推荐的相关进展。
首先是明确了标签对于用户模型的意义,接着,从用户、资源和标签三个角度对基于社会化标注的聚类算法进行了讨论。
同时也对基于社会化标注的排序算法进行了分析,并进一步将其分为依附补充、独立排序和通用排序三类算法。
然后,对标签推荐方面的研究进行了探讨,主要是围绕内容分析、协同分析、语义分析三个方面展开的。
最后,分析了社会化标注中个性化信息推荐的研究,发现借助矩阵、聚类和网络的分析是三种主要思路。
关键词 社会化标注 标签 个性化推荐 聚类 排序AdvancesinPersonalizedInformationRecommendationBasedonSocialTaggingWeiJianliang1andZhuQinghua2(1.SchoolofComputerScienceandInformationEngineering,ZhejiangGongshangUniversity,Hangzhou310018;2.NationalCenterforInformationResourceMangement-Nanjing,Nanjing210093)Abstract SocialtaggingisahottopicincurrentInternet-relatedresearches.Basedontheintroductionofthemeaningandstructureofsocialtagging,thispapermainlydiscussestheadvancementsofpersonalizedinformationrecommendationbasedonsocialtagging.Firstly,tag’smeaningforuserprofileisproved,andclusteringalgorithmsbasedonsocialtaggingfromtheaspectsofusers,resourcesandtagsarediscussed.Meanwhile,rankingalgorithmsbasedonsocialtaggingarealsostudied,andfindsupplementary,independentanduniversalrankingarethreesub-algorithms.Afterwards,researchesabouttagrecommendationarediscussed,whichmainlyfocusonmeansofcontent,collaborativeandsemanticanalysis.Finally,studiesonpersonalizedinformationrecommendationbasedonsocialtaggingareanalyzed,andfindmatrix,clusteringandnetworkanalysisarethreeprimarilymethods.Keywords socialtagging,tag,personalizedrecommendation,clustering,ranking 在Web2畅0的环境下,社会化标注(socialtagging)的出现,已经在产业界得到了广泛应用,出现了Delicious、Flickr、Youtube、LibraryThing、Last.fm、Connotea、CiteUlike、Technorati等众多新的应用与体验。
由于允许任意用户可以对感兴趣的网络资源进行基于自身理解的无约束标注,并且所有用户的标注都互为可见,这种开放、共享的模式以及反映用户真实理解和观点的标注为信息资源组织、检索和共享带来了一种全新的理念,它是一种大众智慧的浮现。
因此,社会化标注一经出现,就引起了学术界的—526—KG20ⅡLcG2T98G1-LUn2GL2极大热情。
1 社会化标注的内涵与结构1畅1 社会化标注的内涵 标注(tagging)或者标签(tag)并不是最近的新鲜事物,特别对于图书馆员、编目者和专业分类人员而言,只是其所用的标签是受控的,而且没有体现出社会性。
本文所指的社会化标注(socialbookmarking)起源于1997年一项建议通过协同方法加强网络浏览器书签功能的研究[1]。
之后,文献[2]也进行了一项类似的研究。
受此启发,在2003年底JoshuaSchachter开始提供第一个社会化标签服务,也就是现在的Delicious网站,该网站允许用户可以对自己所感兴趣的信息资源添加标签。
标签类似于关键词,它是用户用来对发布的信息所进行的标注,但它与关键词不同的是,标签的标注不存在词与权限的限制,而关键词往往是只能由信息的发布者或创造者添加的。
标注是对用户添加标签的行为的描述。
用户可以对自己发布的信息进行标注,也可以对其他用户发布的信息进行标注。
当多个用户对多个对象添加标签时,标签就具有了社会性,也就成为了社会化标签。
这种行为模式就称之为社会化标注。
在这种新的模式下,每个用户都在进行标注,而不再是一小部分专家,标签走向了公开化,并在用户间形成共享[3]。
社会化标注在英文里有着较多类似的概念,如socialbookmarking、socialtagging、socialannotation、collaborationtagging、folksonomy、socialclassification、socialindexing等。
在这些概念中,除socialbookmarking的对象为URL外,其余的概念都表达了相同的内涵,其对象不仅可以包括URL,而且也涵盖了图片、视频、参考文献、博客、图书等众多互联网资源。
从理论而言,所有的网络资源都可以用社会化标签进行标注。
从学术研究的角度而言,socialtagging和folksonomy是目前运用较多的两个概念。
前者表示的是社会化标注,后者是大量社会化标注所产生的结果,使信息资源浮现出类别的特征,称之为大众分类。
1畅2 社会化标注的结构在社会化标注中,包括了三个主要要素:用户、资源和标签[4]。
用户包括信息资源的创建者、标注者或使用者。
社会化标注系统模型见图1。
在社会化标注系统中,绝大部分的用户是互联网的普通使用者。
资源是指存在于互联网中的各种类型的信息,如网页、文献、博客、图片、视音频等。
标签是指用户所选择的进行资源标注的词。
在这其中,标签是由个人用户所赋予的,而且标签的选词是根据用户对资源的理解,在形式和内容上不受已有词表的限制;而且标签和标注的环境是基于共享和开放的;最后,大量个人用户的标注行为通过碰撞与融合,形成了社会性,信息资源实现了基于标签的自动归类。
这也正如一些研究者所指出的,社会化标注不是添加关键词的简单行为,它是大量用户对事物特定看法的词汇集,是一种综合的行为[5]。
因此,通过综合标签、资源以及用户三者,就可以比简单的关键词得到更为丰富的视角[6]。
图1 社会化标注系统模型2 基于社会化标注的推荐研究标签与以往推荐系统所能获得的信息的本质区别是:标签作为用户所选择的关键词,体现了用户对资源的理解,并且成为了用户之间联系和交流的纽带。
可以说,标签既表达了信息资源的主要特征,同时又涵盖了用户与资源之间,以及用户与用户之间的关系,兼具内容与关联的特征。
将标签作为推荐技术的数据来源,便有可能开发出同时具备内容过滤和协同过滤优越性的推荐技术。
因此,许多研究者对此进行的探讨,并取得了一定的成果。
在对文献进行系统梳理的基础上,我们认为目前基于社会化标注的推荐研究主要包括了以下几个方面:标签对于用户模型的意义;基于标签的聚类算法;基于标签的排序算法;标签的推荐;基于标签的个性化信息推荐。
—626—情报学报 第29卷 第4期 2010年8月2畅1 标签对于用户模型的意义很多研究对于标签的作用予以了肯定。
有研究认为了解用户的兴趣,只要将注意力放在与该用户相关的标签和资源即可[7]。
可以说,社会化标注为了解用户打开了一扇新的窗户,通过社会化标注就可以掌握其信息需求和习惯[3]。
进一步地,文献[8]在比较了作者元数据(标题、关键词等)与标签之后,认为标签比元数据更具有优越性,而且标签往往蕴含了原文中没有直接表达的内容。
尽管目前受应用范围和领域的限制,标签的作用还没有得到深刻体现,但标签的确提供了传统信息源所不具有的信息[9]。
只要具备足够大量的用户,标注系统的表现就能够得到改善[4]。
在对标签的信息检索效果进行的实证分析中,研究者发现标签已具备良好的检索性能[10],特别是在查全率和查准率两项指标上表现出色[11]。
对于任意一项资源而言,往往会有一部分高频率的标签。
一方面,这些具有高频率的流行标签可以代表该资源的内容[12]。
尽管不同用户在标注中会存在不同的认知,但社会化标注的一致性会随着信息资源在网络中的流行性和标注用户数的上升而得以提高[13]。
有研究者通过对Delicious等标签网站的分析指出,就单个资源来说,其标签的分布较为稳定,且频繁使用的那部分标签比例较小且稳定,10%的最流行标签覆盖了所有URL的84畅3%[14];另一方面,用户对标签的多次使用也说明了用户兴趣的浮现[3]。
由于标注系统有可能收集到用户所标注的全部标签。