当前位置:文档之家› 基于机器学习的推荐系统

基于机器学习的推荐系统

在这个数据信息无处不在的 
时代,如何对这些数据进行获取 
并进行相应的分析成了众多人的 研究的课题。本文针对这一现状, 对机器学习相关的推荐系统做了 一些简单的概述。通过对机器学 习在推荐系统上用的一些技术和 思想进行解析,让更多的人了解 什么是大数据,什么是机器学习。 最为重要的一点是让大家了解机 器学习对我们的日常所产生的深 远影响。 【关键词】机器学习推荐系统大数据数据 挖掘 1引言 相比过去,数据存储不再是难题,但随 着海量数据的产生,产生了大量数据的资源无 法得到合理的利用。随着科技的发展,人们逐 渐把目光转向了数据挖掘这个领域。各种数据 挖掘技术被利用到现实生活中。机器学习技术 在其中起了很大的作用,其中比较广为所知的 就是AlphaGo与李世石的“世纪之战”,被 誉为人机大战,最终以AlphaGo胜利告终, 再一次向人们展示了机器学习的强大。在很多 人眼里机器学习是个非常抽象的概念,本文将 对其在推荐系统领域做一定的解析。 2机器学习的过程 何为机器学习?通俗来说机器学习就是 让机器跟人一样学习并总结“经验”。当然机 器不能跟人一样去经历各种事情积累“经验”。 而是通过已有的数据让机器去分析,总结其中 的规律,并总结形成一套模型,应用到实际生 活中去。 2.1获取数据 机器学习的第一步就是获取数据,没有 数据的机器学习都是空谈。数据的获取相对于 后面的步骤较为容易,因为数据无处不在。超 市里有消费者的购买记录,行车记录仪上有车 辆的行驶记录,电影院有影迷的观看记录等, 这些数据信息是我们开始机器学习的前提。 2.2清洗数据 我们获取的数据是无规则的,其中有很 多对我们没有利用价值的冗余数据,还有可能 会有影响到我们分析结果的错误信息。我们在 进行具体的分析之前需要对这些信息进行预处 理,以免会影响到分析结果的准确率。数据的 基于机器学习的推荐系统 文/周齐 Data Base Technique・数据库技术 预处理主要分为三个方面:距离度量、抽样、 降维。 在协同过滤推荐系统中使用的KNN分类 (k-NearestNeighbor)主要取决于距离度量方 法。比较常用的距离度量方法有欧几里得距离、 皮尔逊相关系数、Jaccard系数(针对二进制 属性)等。抽样是数据挖掘从大数据集中选择 相关数据子集的主要技术,其在最终的解释步 骤也起了很重要的作用,最常采用的抽样方法 是无取代抽样,当物品被选择时,物品被从整 体中取走,但执行取代抽样也是允许的,也就 是说物品即使被选择也无需从整体中去除。通 常训练集和测试集比例为80/20。最后降维是 为了去除一些非常稀疏且对结果集影响不大的 点,降低维度,避免维度灾难,降低运算难度。 率定义和贝叶斯定理的一类算法,贝叶斯统 计学派使用概率来代表从数据中学习到的关 系的不确定性。其把每一个属性和类标签当 作随机变量。给定一个带有N个属性的记录 
(A ,A ,A ..,A ),目标是预测类ck,方法 
是在给定数据P(C IA。,A:,...,AN)下,找到能 
够最大化该类后验概率的C 的值。常见贝叶 
斯分类器算法有朴素贝叶斯算法、平均单依赖 
估计(AODE)以及贝叶斯网络(BBN)等。 

2.4测试模型 
整个机器学习的最后一步就是测试模型, 
检测模型的准确率。这是衡量一个算法的优劣 
的重要步骤。测试的数据集可以从测试中随机 
选取或者从提前预留的测试集中获取。 
2・3分}斤l数据与建立模型 3机器学习在推荐系统领域存在的挑战 

在整个机器学习的过程中,难度最大最 
为核心的就是分析数据。分析数据的方法有很 
多种,每一种在不同的实际应用有其不同的作 
用,要具体情况具体分析。这里将介绍几种在 
推荐系统中较为常用的数据分析方法: 
最近邻算法(KNN):KNN通过存储训I 
练记录并使用它们来预测未知样本的标签类 
别。这种分类器会存储所有的训练集,只有当 
新纪录与训练集完全匹配时才进行分类。相对 
于其它机器学习算法,KNN是最简单的,因 
为K 无需建立一个显示的模型,被称为是 


个懒学习者。尽管KNN方法简单直观,但 
它的结果准确,非常易于提升。 
k-me ̄qs算法:k-means算法是一个分块 
聚类算法,把获取的n个对象数据分割成k个 
不相关子集(k<n)。它与处理混合正态分布 
的最大期望算法很相似,因为它们都是试图找 
到数据中自然聚类的中心。它假设对象属性来 
自于空间向量,并且目标是使各个群组内部的 
均方误差总和最小。k-means算法~开始会随 
机选择k个中心点,所有物品都会被分配到它 
们最靠近的中心节点的类中。当物品新添加或 
者移除时,新聚类的中心节点需要更新,聚类 
的成员关系也需要更新,这样不断迭代,直到 
没有物品改变它们的聚类成员关系。最终的聚 
类对初始的中心点异常敏感,还可能存在空聚 
类。 
人工神经网络(ANN):人工神经网络 
算法模拟生物网络,由一组内连接点和带权链 
组成,是一类模式匹配算法。通常用于解决分 
类和回归问题。ANN是机器学习的一个庞大 
的分支,有数百种不同的算法,深度学习就是 
其重要的组成部分之一。ANN最主要的优点 
就是能处理非线性的分类任务,通过并行处理, 
使得其能够在部分网络受损的情况下操作。但 
ANN很难对给定的问题提供理想的网络拓扑。 
当拓扑确定后,其表现水平就会位于分类错误 
率的下线。 
贝叶斯分类器:贝叶斯分类器是基于概 

机器学习在推荐系统中同样有很广泛的 
应用,其中较为广泛的是采用三种方式:基于 
商品的推荐算法、基于用户的推荐算法以及 
混合推荐算法。在很多大型互联网网站比如 
Amazon、淘宝、京东等,都投入了很大的精 
力在推荐系统这一领域上,希望用户能够更加 
快速的找到自己想要的商品。 
尽管机器学习在推荐系统领域的发展潜 
力很大,但也不得不面临一些问题。其中一个 
很棘手的问题就是随着时间的推移,用户的兴 
趣爱好也可能跟着变化,而我们获取的仅仅是 
用户过去的购买记录。当用户有了新的兴趣后, 
短时间很难去捕获到。这只是其中一个方面, 
对机器学习算法的研究还有很长的路要走,但 
我相信,随着科技的进步,这些都不是问题。 

参考文献 
[i】王志梅,杨帆.基于[/ebbiall一致性学 
习的P2P推荐算法[J】.计算机研究与应 
用,2 006,42(36):11 0-1l 3. 
【2】吴颜,沈洁,顾天竺等.协同过滤推荐系 
统中数据稀疏问题的解决【J】.计算机应 
用研究,2007,24(06):94—97. 
【3】Peter Harrington.Machine Learning in 
ActiOil[M】.北京:人民邮电出版社,201 5. 
[4]陈刚,刘发升.基于BP神经网络的数据挖 
掘方法[J].计算机与现代化,2006(1 O). 
【5]王卫平,刘颖.基于客户行为序 
列的推荐算法[J】.计算机系统应 
用。2007,17(05):35—38. 

作者简介 
周齐(1 993-),男,安徽省安庆市人。研究 
生在读,软件工程专业。主要从事大数据挖掘 
领域的研究。 

单位介绍 
杭州师范大学浙江省杭州市311121 

Electronic Techno}ogy&Software Engineering电子技术与软件工程・173

相关主题