当前位置:文档之家› 基于标签的个性化推荐系统研究进展

基于标签的个性化推荐系统研究进展

基于标签的个性化推荐系统研究进展1)张富国1,2(1.江西财经大学信息管理学院,江西南昌330013; 2.瑞士弗里堡大学物理系交叉学科组,弗里堡CH-1700)摘要数据稀疏性多年来一直是困扰传统推荐系统性能表现的一个大问题,社会化标签为推荐系统获得用户的偏好信息提供了一个新的数据来源,同时也对传统的基于二维数据的推荐技术提出了新的挑战。

近年来,基于标签的个性化推荐技术研究逐渐受到比较多的关注。

本文从社会化标签系统的概念模型、用户兴趣模型表示、基于标签的个性化项目推荐方法、典型社会化标签系统实例及其数据集的取得等进行前沿概括、比较和分析。

最后,对基于标签的推荐系统有待深入的研究难点和发展趋势进行了展望。

关键词社会化标签系统推荐系统兴趣偏好推荐方法Research and Development on Tag-based RecommendRecommender er Systems1,2ZHANG Fu-guo(1.School of Information Technology Jiangxi University of Finance&Economics,Nanchang330013China;2.The Interdisciplinary Physics Group,Physics Department,University of Fribourg,CH-1700Fribourg,Switzerland) Abstract Data sparsity is a major problem which causes the decline of the recommendation performance in the recommender systems.Social tags provide a new data resource for recommender systems to obtain users’preference information,and traditional recommendation technology based on two dimensions datum is facing a new challenge.In recent years,the research on personalized recommendation technology has been paid more attention.This paper presents an overview of tag-based recommender systems, including concept model,user interest model,tag-based recommendation methods,typical social taging systems and the way to obtain their datasets.Finally,the prospects for future development and suggestions for possible extensions are also discussed. Keywords social taging system,recommender system,preference,recommendation method.1引言互联网技术的迅猛发展把我们带进了信息爆炸的时代。

海量信息的同时呈现,一方面使用户很难从中发现自己感兴趣的部分,另一方面也使得大量少人问津的信息成为网络中的“暗信息”,无法被一般用户获取[1]。

个性化推荐系统的出现为用户处理信息过载问题提供了一个有效的工具,同时,推荐系统也能帮助商家把用户的潜在需求转化为现实需求,从而达到提高商家产品销售量的目的。

实际的推荐系统应用也证明了这点,Amazon宣称35%的产品销售额来源于推荐[2],而Netflix宣称大约有60%的出租业务来源于推荐[3],因此即便是推荐质量上的稍小改进也会对此类公司产生巨大的商业利润,于是,Netflix公司在2006年悬赏100万美元用于奖励提高其推荐准确率10%的研究人员。

从推荐技术来看,基于内容的过滤方法(Content-based)[4-6]受限于不能对非文本类对象进行信息的自动提取;而被认为是很有前途,也是关注最多的协同过滤(Collaborative Filtering)[7-10]推荐方法以及最近兴起的基于用户—产品二部图网络结构的推荐方法[11-14]都依赖于用户对项目的评分矩阵或关联关系。

但从实际的推荐系统来看,由于评分数据的极端稀疏性(如:Netflix Prize数据集480189个用户对17770电影进行评分,评分值只有100,480,507个,近99%的评分未知),使得推荐系统无法准确获知用户的偏好,巧妇难为无米之炊,导致推荐系统性能的大收稿日期:作者简介:张富国,男,1969年生,副教授,主要研究领域为个性化推荐、信息检索。

资助项目:江西省教育厅科技计划项目(GJJ.10696)资助。

幅下降[7,15,16]。

在Web2.0下,用户会搜集自己感兴趣的资源并对其添加标签,以方便管理个人目录和搜索有用信息,因为其简单、易用等优点而逐渐成为Web2.0环境下一个比较流行的应用,在企业界出现了各种各样的社会化标签系统,比如Delicious、Flickr、Bibisonomy和豆瓣等。

社会化标签既是信息资源的分类工具,也是用户个人偏好的反映,因此,社会化标签为推荐系统获得用户的偏好信息提供了一个新的数据来源,同时对传统的基于二维数据的推荐技术提出了新的挑战。

近年来,社会化标签系统推荐的对象包括标签、用户和项目资源[17],前者研究的文献最多,后者作为一个较新的研究领域,也逐渐受到学术界的广泛关注,本文分析的就是对项目资源的推荐。

目前,国内外在该领域的综述性文献还很少见,本文在分析社会化标签的概念模型之上,详细分析讨论了用户偏好的表示方法、基于社会化标签的个性化推荐方法以及相关社会化标签系统实例及其实验数据集的获得方式,最后,指出了这些系统存在的缺陷和未来可能的若干研究方向。

我们将该领域的研究进展和趋势介绍给信息科学工作者,希望能促进我国在该领域的研究工作。

2社会化标签系统的概念模型目前,国内外对社会化标签的概念还没有统一的定义,但学者们普遍认同社会化标签是由用户产生的,对网络内容进行组织和共享的自下而上的组织分类体系[18]。

相比较之前的系统,对资源进行科学分类大多是依靠少数领域专家,这种方法虽然比较科学和权威,但是不能很好的表达用户的个人想法和观点,而这一点也是社会化标签受到普遍欢迎的原因。

一个社会化标签系统由用户、项目和标签三类对象构成,它的概念模型如图1所示[19],用户可以对项目标注多个标签,标注的方法主要有两种:一种是手工标注,完全由用户从自己的词表中选择合适的词来标注资源;另外一种就是半自动标注,即社会化标签系统为用户推荐标签列表,用户从中选择合适的标签进行标注。

这种标注关系的形式化表示为:},....,,,,{F 21t tag tag tag item user =,其中t表示用户对项目使用的标签数。

在图1中,项目之间的有向虚线连接表示项目之间可能存在着的关联关系(比方说文献之间存在互相的引用关系);相类似的,用户之间的无向虚线连接用来说明某些用户之间可能存在的关联关系(比方说处在同一社会网络群组或同一部门下,如果用户是处在信任网络中,它就是个有向连接)。

Users ItemsT a g s图1社会化标签系统的概念模型从社会化标签在标识项目方面的功效来说,文[20]将其归纳为以下七种:(1)标识对象的内容主题。

一般用名词,如:IBM,Music,房产销售等标签。

(2)标识对象的载体类别。

如:标识对象是文章,日志或书籍。

(3)标识对象的创建者或所有者。

(4)标识对象的品质和特征。

如:有趣,幽默等标签。

(5)自己参考用的标签。

如:myphoto、myfavourite等标签。

(6)分类提炼用的标签。

如用数字标签对现有分类进一步细化。

(7)用户任务组织的标签。

如:to read,to print等标签。

第1类和第4类社会化标签最能体现用户的兴趣所在,而第5类和第7类社会化标签则对反映用户的兴趣没有多大帮助,在进行推荐过程中应该预先清理。

3基于标签的用户兴趣模型表示社会化标签系统通过标签将用户和资源连接起来,通过三者的动态关系,可以分析出用户的兴趣偏好。

标签对用户偏好的表达与以往推荐系统中的评分数据相比有它的优势和缺点。

从优势来说,对某个对象的社会化标签一般是若干个单词或者短语,相较于具体的评分值,前者携带有更多的信息量。

比如在电影推荐中,对于电影“泰坦尼克”,在传统的推荐系统中,如果用户很欣赏这部电影,他会给五颗星,但是表达的含义是不清楚的。

但是在标签推荐系统中,你可以为这部电影添加“永恒的爱”或是“灾难”等标签,这样系统就可以清楚用户关注电影的哪几个方面[21]。

在缺点方面,大多数社会化标签系统允许用户自行输入标签,由于标注的随意性也造成了标签中存在较多噪音,如同义词、歧义词以及私人标签(Bischoff等的调查发现:接近60%的标签只被一个用户使用[22])。

这些噪声给基于标签的个性化推荐系统研究带来了挑战。

社会化标签这种隐式的评级机制依赖于推荐系统对标签本身的语义的理解,许多研究致力于通过调查用户标签行为来获得用户标签词汇的演化模型[23-25]。

这些研究发现用户的标签行为除了受用户个人的偏好影响之外,还受到了整个社区普遍的标签行为的影响。

也就是说,兴趣相似的用户(同一社区成员)很可能使用相似的标签,这对在标签系统中根据用户兴趣进行推荐提供了很好的基础。

基于标签的用户兴趣模型表示方法可以概括为简单向量法[26,27]、共现法[28]、自适应法[29]和多兴趣模型[30]四类,具体介绍如下。

(1)简单向量法(Naive approach):简单向量法认为如果一个用户使用某个标签的次数越多,说明她在相应主题上的兴趣度越高,所以最简单的方法就是用标签向量来表示用户概貌,先统计出整个系统中最常用的k个标签,然后统计目标用户在这些标签上的使用次数,构成标签向量。

这种方法的优点是容易实现,但它有两方面的缺点,一是某些常用的单个标签缺少语义的明确性,不能体现用户的个性化偏好,比如标签“Web”等;二是用户在对具体对象进行标签时,同时使用了多个标签,它们之间存在着一定的语义联系,向量型的离散表示不能刻划标签之间的这种语义联系。

相关主题