基于强化学习的推荐系统分享
Critic使用价值函数根据state和Actor给出的action计算当前的Q值,
55 /73
RL&Recsys
问题定义
目标对象:
Recommender Agent (RA)
环境:
User/模拟器
性质:
符合马尔科夫决策(MDP)过程
56 /73
RL&Recsys
问题定义
st
s1
s2
s3
s4
32 /73
强化学习
Actor计算方式
33 /73
强化学习
Actor计算方式
每次进行游戏的概率为:
与Actor无关
34 /73
强化学习
Actor计算方式
35 /73
强化学习
Actor计算方式
36 /73
强化学习
Critic基本框架
s
数值
第一步:定义网络结构 第二步:定义损失函数 第三步ctor
… …
left
0.7 0.2 0.1
right
fire
通过概率 采取下一 步的动作
第一步:定义网络结构 第二步:定义损失函数 第三步:选择最优的模型
29 /73
强化学习
Actor基本框架
30 /73
强化学习
Actor计算方式
31 /73
强化学习
Actor计算方式
如果是正值
如果是负值
41 /73
强化学习
s
Q function原理
0.6
a
数值
s
0.3 0.1
42 /73
强化学习
Q function
Actorcritic
decreas e increase
QLearning
直接求Q函数的最大值
已经知道了Q函数的参数
43 /73
强化学习
Critic基本框架
TD or MC
44 /73
强化学习
Q-Learning
45 /73
强化学习
使用TD方法求Q(s,a)
固定住
固定住
46 /73
强化学习
经典算法TD-Learning
经验 回放
增加一些噪声 TD or MC
Actor
=
47 /73
强化学习
DDPG Algorithm
Using target networks
The target networks update slower
2
3
强化学习
基本概念
强化学习( Reinforcement Learning,RL)是指没有任何标
签的情况下,通过先尝试做出一些行为得到一个结果,通
过这个结果是对还是错的反馈,调整之前的行为,这样不
断的调整,算法能够学习到在什么样的情况下选择什么样
的行为可以得到最好的结果。
25 /73
强化学习
基本过程
基于强化学习的推荐系统
1 /73
目录S
目录
01 02 03
推荐系统
Recommendation System
强化学习
Reinforcement Learning
基于强化学习的推荐系统
Deep Reinforcement Learning for List-wise Recommendations
2 /73
推荐系统 基于内容的推荐算法 文本推荐方法 基于内容的推荐算法 基于潜在语义分析的推荐
自适应推荐
推荐系统 基于内容的推荐算法 1.文本推荐方法
根据历史信息构造用户偏好文档,计算推荐项目与 文档的相似度,将最相似的项目推荐给用户.
采用TF-IDF方法: Term Frequency: 词频 Inverse Document Frequency: 逆向文件频率 相似度计算公式:
根据余弦相似度计算项目间相似度
根据计算出来的相似度估计评分
推荐系统 基于模型的推荐
采用统计学、机器学习、数据挖掘等方法,根据 用户历史数据建立模型,并产生合理推荐。
简单的评分模型:
推荐系统 基于模型的推荐 基于朴素贝叶斯分类的推荐 基于模型的推荐 基于线性回归的推荐
基于马尔科夫决策过程的推荐
推荐系统 基于模型的推荐
推荐系统
目录
1、协同过滤推荐算法 2、基于内容的推荐
3、基于图结构的推荐
4、混合推荐&其他推荐算法 5、推荐系统的评价准则
3 /73
推荐系统 协同过滤推荐算法 基于用户(user-based)的推荐 1、基于记忆的推荐 基于项目(item-based)的推荐 基于朴素贝叶斯分类的推荐
2、基于模型的推荐
…
sN
at
a1
a2
…
aK
r(st, at)
r1
r2
…
rK
57 /73
RL&Recsys
问题定义
58 /73
RL&Recsys
模型框架
st
s1
s2
s3
s4
…
sN
at
a1
a2
…
aK
r(st, at)
r1 5 s3 s4
r2 0 s5
… … …
rK 1 a1 ak
st+1
59 /73
RL&Recsys
1.基于朴素贝叶斯分类的推荐 朴素贝叶斯分类方法的前提是假设样本的各个属性 相互独立
由朴素贝叶斯假设可得:
=
推荐系统 基于模型的推荐
2.基于线性回归的推荐
线性预测模型: u=(x1,x2,… ,xn)表示用户u对n个项目的评分 p=(a1,a2,… ,an)表示评分系数、 m表示偏差
推荐系统 基于模型的推荐
3.基于马尔科夫决策过程MDP的推荐
借鉴强化学习(reinforcement learning)的思想,把推荐过程建模为 MDP最优决策问题,即如何产生一个能最大用户收益的推荐项目列表. 将MDP模型定义为一个4元组(S,A,R,Pr) 推荐过程对应的MDP过程:
1
2
推荐系统 基于模型的推荐 除以上介绍的方法外,基于模型的协同过滤方法还 包括基于聚类的Gibbs抽样方法,概率相关方法和极大 熵方法等. 基于模型的协同过滤算法能在一定程度上解决基于 记忆的推荐算法面临的主要困难,在推荐性能上更优,但 通常算法复杂,计算开销大.
·基于内容融合到协同过滤的方法中
其他推荐:基于关联规则(啤酒-尿布)和基于知识的推荐
推荐系统 评价准则
1.平均绝对误差(mean absolute error,MAE) 用于度量推荐算法的估计评分与真实值之间的差异.
2.均方根误差(root mean squared error,RMSE) RMSE是Netflix竞赛(电影推荐)采用的评价准则.RMSE值越小,算法 的准确度越高.
26 /73
强化学习
五元组(S,A,R,P,������)
1.State(S): 智能体所有可能处于的状态。
2.Action(A):智能体可以采取的所有可能的动作空间的集合。
3. Reward(r):环境的即时返回的奖励值,以评估智能体的
上一个动作。
left right
fire
4. P:状态转移的概率,描述从当前状态转移到下一状态。
模型框架
例如给用户推荐两个物品,每个物品的回报如下: 因此这两个物品的最终回报会出现以下几种排列: {(0, 0), (0, 1), (0, 5), (1, 0), (1, 1), (1, 5), (5, 0), (5, 1), (5, 5)}, 计算两个行为的相似性:
滑动 0
点击 1
购买 5
推荐系统 基于内容的推荐算法 3.自适应推荐
主题向量 特征向量 正例文本
特征 提取
是
非正例文本 偏好模板 训练集 相似度>阈值
阈值 调整
否
是否成立
阈值
3
推荐系统 基于图结构的推荐算法
用户项目矩阵可建模为二部图,节点表示拥护和项目, 借鉴动态网络资源分配过程。该方法的推荐过程如下: m个项目 X X X X ①建立推荐二部图. X
推荐系统 评价准则
3.查全率(recall) 用于度量推荐列表中是否包含了用户偏好的全部项目.
4.查准率(precision) 用于度量推荐列表中是否都是用户偏好的项目.
Li表示推荐算法为用户i产生的推荐列表, Ri表示测试集中用户i偏好的全部项目.
强化学习
目录
1
基本概念 算法原理 算法框架
24 /73
研究背景
输入state输出所有action的Q-Value,这种模型适合高 state空间和小的action空间,如Atari; 不能够处理大
的以及动态变化的action,比如电子商务的推荐系统;
53 /73
RL&Recsys
研究背景
针对state和action作为神经网络的输入,直接输出Q-Value 这种网络结构不需要在内存中存储每一个action对应的QValue,因此可以处理非常庞大的action空间、甚至是连续 的动作,但是这种结构的时间复杂度较高,因为需要单独计
基于线性回归的推荐 基于马尔科夫决策过程的推荐
1
推荐系统 协同过滤推荐算法
User-item rating matrix
用户-项目评分矩阵
推荐系统 基于记忆的推荐 1.基于用户(user-based)的推 荐
根据余弦相似度计算用户间相似度
根据计算出来的相似度估计用户评分:(2.5)
推荐系统 基于记忆的推荐 2.基于项目(item-based)的推荐