当前位置:文档之家› 基于混合算法的推荐系统的研究与实现

基于混合算法的推荐系统的研究与实现

同济大学软件学院
硕士学位论文
基于混合算法的推荐系统的研究与实现
姓名:李冠宇
申请学位级别:硕士
专业:软件工程
指导教师:刘琴;朱宏明
20081101
Abstract
givethemadvices.
Words:RecommendationSystem,nearestclustering,supportvector
Key
machine(SVM),contentbasedrecommendation,Userbasedrecommendation,mixed
algorithm
IV
淘宝网购物/
第3章混合推荐系统方案
3.2混合推荐的方案特点
在目前已有的各种推荐系统,基于协同过滤的推荐技术和基于内容的推荐技术已经取得了比较好的效果,并且各自都有了自己的原型和应用。

但是经过我们对推荐问题本身的不断研究和应用,我们认为现有的这些方法都存在着各自的局限性。

基于协同过滤技术的推荐系统不分析不同项目间的相似性,而是学习顾客购买行为之间的相似性。

由于它不依赖于项目的特征,因此它可以推荐从表面特征上看上去不同但事实上有很大相关性的项目。

而且更重要的是它可以根据顾客购买行为数据的不断积累,来更新和增加自己的知识。

但是同时它也有自己的缺陷:
>稀疏性问题。

基于协同过滤技术的推荐系统依赖于大量的用户兴趣评估数据,但是通常每个用户都只对很少的项目做出评价,整个项目——用
户评估矩阵非常稀疏。

这样,协同过滤推荐系统就得不到足够的用户评
价来进行预测,导致用户之间的相似度计算不准确,得到的邻居用户不
可靠。

>第一评价问题。

传统的协同过滤推荐是基于邻居用户资料得到目标用户的推荐,因此在一个新的项目首次出现的时候,因为没有用户对它作过
评价,因此单纯的协同过滤无法对其进行预测评分和推荐。

而且,由于
新项目出现早期,用户评价较少,推荐的准确性也比较差。

相似的,推
荐系统对于新用户的推荐效果也很差。

一个极端的案例是:当一个协同
过滤推荐系统刚开始运行的时候,每个用户和每个项目都面临第一评价
问题。

>灰羊问题:在较小的,甚至是中等规模的用户群中,往往存在这样一些用户,他们的偏好特殊以至找不到与其相似的用户,因此基于协同过滤
技术的推荐系统很难获得J下确的预测。

>可扩展性问题:协同过滤算法在推荐是需通过计算用户的相似度以识别
第4章混合推荐系统实现
4.2系统实现分析和优化
4.2.1数据融合
采用YangXun站点提供的数据集(http://wWw.me—tech.com.cn/)。

扬讯科技是中国最老牌的手机游戏及应用服务提供商之一。

为中国一千五百万用户提
供了百余款无线娱乐以及应用产品。

获得的数据集包括是三个数据文件,分别
是ratings,games以及users。

每个数据文件提供的具体信息如下:
>ratings评分数据:UserID,GameID,Rating,Timestamp。

分别表示用
户标识、被评价的游戏编号、评分、评分时间。

Rating字段的取值是
1-5分,说明用户对这个游戏的喜好程度。

>games游戏数据:GameID,Title,Types分别表示游戏编号、游戏名称、
游戏类型。

>users用户数据:UserID,Gender,Age,Occupation,Zip—code分别
表示用户标识、性别、年龄、职业、地址编号。

4.2.1.1用户评分数据与商品特征数据结合
(1)用户评分数据表示用户对相应的游戏评分值。

表4.1用户评分数据表
/list.php?catid=16。

相关主题