当前位置：文档之家› 基于强化学习的推荐系统分享

基于强化学习的推荐系统分享

Critic使用价值函数根据state和Actor给出的action计算当前的Q值，
55 /73
RL&Recsys
问题定义
目标对象：
Recommender Agent (RA)
环境：
User/模拟器
性质：
符合马尔科夫决策(MDP)过程
56 /73
RL&Recsys
问题定义
st
s1
s2
s3
s4
32 /73
强化学习
Actor计算方式
33 /73
强化学习
Actor计算方式
每次进行游戏的概率为：
与Actor无关
34 /73
强化学习
Actor计算方式
35 /73
强化学习
Actor计算方式
36 /73
强化学习
Critic基本框架
s
数值
第一步：定义网络结构第二步：定义损失函数第三步ctor
… …
left
0.7 0.2 0.1
right
fire
通过概率采取下一步的动作
第一步：定义网络结构第二步：定义损失函数第三步：选择最优的模型
29 /73
强化学习
Actor基本框架
30 /73
强化学习
Actor计算方式
31 /73
强化学习
Actor计算方式
如果是正值
如果是负值
41 /73
强化学习
s
Q function原理
0.6
a
数值
s
0.3 0.1
42 /73
强化学习
Q function
Actorcritic
decreas e increase
QLearning
直接求Q函数的最大值
已经知道了Q函数的参数
43 /73
强化学习
Critic基本框架
TD or MC
44 /73
强化学习
Q-Learning
45 /73
强化学习
使用TD方法求Q(s,a)
固定住
固定住
46 /73
强化学习
经典算法TD-Learning
经验回放
增加一些噪声 TD or MC
Actor
=
47 /73
强化学习
DDPG Algorithm
Using target networks
The target networks update slower
2
3
强化学习
基本概念
强化学习（ Reinforcement Learning，RL）是指没有任何标
签的情况下，通过先尝试做出一些行为得到一个结果，通
过这个结果是对还是错的反馈，调整之前的行为，这样不
断的调整，算法能够学习到在什么样的情况下选择什么样
的行为可以得到最好的结果。
25 /73
强化学习
基本过程
基于强化学习的推荐系统
1 /73
目录S
目录
01 02 03
推荐系统
Recommendation System
强化学习
Reinforcement Learning
基于强化学习的推荐系统
Deep Reinforcement Learning for List-wise Recommendations
2 /73
推荐系统基于内容的推荐算法文本推荐方法基于内容的推荐算法基于潜在语义分析的推荐
自适应推荐
推荐系统基于内容的推荐算法 1.文本推荐方法
根据历史信息构造用户偏好文档,计算推荐项目与文档的相似度,将最相似的项目推荐给用户.
采用TF-IDF方法： Term Frequency：词频 Inverse Document Frequency：逆向文件频率相似度计算公式：
根据余弦相似度计算项目间相似度
根据计算出来的相似度估计评分
推荐系统基于模型的推荐
采用统计学、机器学习、数据挖掘等方法，根据用户历史数据建立模型，并产生合理推荐。
简单的评分模型：
推荐系统基于模型的推荐基于朴素贝叶斯分类的推荐基于模型的推荐基于线性回归的推荐
基于马尔科夫决策过程的推荐
推荐系统基于模型的推荐
推荐系统
目录
1、协同过滤推荐算法 2、基于内容的推荐
3、基于图结构的推荐
4、混合推荐&其他推荐算法 5、推荐系统的评价准则
3 /73
推荐系统协同过滤推荐算法基于用户(user-based)的推荐 1、基于记忆的推荐基于项目(item-based)的推荐基于朴素贝叶斯分类的推荐
2、基于模型的推荐
…
sN
at
a1
a2
…
aK
r(st, at)
r1
r2
…
rK
57 /73
RL&Recsys
问题定义
58 /73
RL&Recsys
模型框架
st
s1
s2
s3
s4
…
sN
at
a1
a2
…
aK
r(st, at)
r1 5 s3 s4
r2 0 s5
… … …
rK 1 a1 ak
st+1
59 /73
RL&Recsys
1.基于朴素贝叶斯分类的推荐朴素贝叶斯分类方法的前提是假设样本的各个属性相互独立
由朴素贝叶斯假设可得：
=
推荐系统基于模型的推荐
2.基于线性回归的推荐
线性预测模型： u=(x1,x2,… ,xn)表示用户u对n个项目的评分 p=(a1,a2,… ,an)表示评分系数、 m表示偏差
推荐系统基于模型的推荐
3.基于马尔科夫决策过程MDP的推荐
借鉴强化学习(reinforcement learning)的思想,把推荐过程建模为 MDP最优决策问题,即如何产生一个能最大用户收益的推荐项目列表. 将MDP模型定义为一个4元组(S,A,R,Pr) 推荐过程对应的MDP过程：
1
2
推荐系统基于模型的推荐除以上介绍的方法外,基于模型的协同过滤方法还包括基于聚类的Gibbs抽样方法,概率相关方法和极大熵方法等. 基于模型的协同过滤算法能在一定程度上解决基于记忆的推荐算法面临的主要困难,在推荐性能上更优,但通常算法复杂,计算开销大.
·基于内容融合到协同过滤的方法中
其他推荐：基于关联规则（啤酒-尿布）和基于知识的推荐
推荐系统评价准则
1.平均绝对误差(mean absolute error,MAE) 用于度量推荐算法的估计评分与真实值之间的差异.
2.均方根误差(root mean squared error,RMSE) RMSE是Netflix竞赛（电影推荐）采用的评价准则.RMSE值越小,算法的准确度越高.
26 /73
强化学习
五元组（S,A,R,P,��）
1.State(S)：智能体所有可能处于的状态。
2.Action(A)：智能体可以采取的所有可能的动作空间的集合。
3. Reward(r)：环境的即时返回的奖励值，以评估智能体的
上一个动作。
left right
fire
4. P：状态转移的概率，描述从当前状态转移到下一状态。
模型框架
例如给用户推荐两个物品，每个物品的回报如下：因此这两个物品的最终回报会出现以下几种排列： {(0, 0), (0, 1), (0, 5), (1, 0), (1, 1), (1, 5), (5, 0), (5, 1), (5, 5)}, 计算两个行为的相似性：
滑动 0
点击 1
购买 5
推荐系统基于内容的推荐算法 3.自适应推荐
主题向量特征向量正例文本
特征提取
是
非正例文本偏好模板训练集相似度>阈值
阈值调整
否
是否成立
阈值
3
推荐系统基于图结构的推荐算法
用户项目矩阵可建模为二部图，节点表示拥护和项目，借鉴动态网络资源分配过程。该方法的推荐过程如下： m个项目 X X X X ①建立推荐二部图. X
推荐系统评价准则
3.查全率(recall) 用于度量推荐列表中是否包含了用户偏好的全部项目.
4.查准率(precision) 用于度量推荐列表中是否都是用户偏好的项目.
Li表示推荐算法为用户i产生的推荐列表, Ri表示测试集中用户i偏好的全部项目.
强化学习
目录
1
基本概念算法原理算法框架
24 /73
研究背景
输入state输出所有action的Q-Value,这种模型适合高 state空间和小的action空间，如Atari; 不能够处理大
的以及动态变化的action，比如电子商务的推荐系统；
53 /73
RL&Recsys
研究背景
针对state和action作为神经网络的输入，直接输出Q-Value 这种网络结构不需要在内存中存储每一个action对应的QValue，因此可以处理非常庞大的action空间、甚至是连续的动作，但是这种结构的时间复杂度较高，因为需要单独计
基于线性回归的推荐基于马尔科夫决策过程的推荐
1
推荐系统协同过滤推荐算法
User-item rating matrix
用户-项目评分矩阵
推荐系统基于记忆的推荐 1.基于用户(user-based)的推荐
根据余弦相似度计算用户间相似度
根据计算出来的相似度估计用户评分：（2.5）
推荐系统基于记忆的推荐 2.基于项目(item-based)的推荐

e商务文档

基于强化学习的推荐系统分享

相关文档推荐：