当前位置：文档之家› 基于强化学习的系统分享

基于强化学习的系统分享

50
推荐系统
51
RL&Recsys Deep Reinforcement Learning for List-wise Recommendations
1 研究背景 2 问题定义 3 模型框架
52
RL&Recsys 研究背景
输入state输出所有action的Q-Value,这种模型适合高 state空间和小的action空间，如Atari; 不能够处理大的以及动态变化的action，比如电子商务的推荐系统；
33
强化学习 Actor计算方式
每次进行游戏的概率为：
与Actor无关
34
强化学习 Actor计算方式
35
强化学习 Actor计算方式
36
强化学习 Critic基本框架
s 数值
第一步：定义网络结构第二步：定义损失函数第三步：选择最优的模型
37
强化学习 Critic计算方式
蒙特卡洛方法：
2.均方根误差(root mean squared error,RMSE) RMSE是Netflix竞赛（电影推荐）采用的评价准则.RMSE值越小,算法的准确度越高.
推荐系统评价准则
3.查全率(recall) 用于度量推荐列表中是否包含了用户偏好的全部项目.
4.查准率(precision) 用于度量推荐列表中是否都是用户偏好的项目.
s
0.6
s
0.3
a
数值
0.1
42
强化学习 Q function
Actor-critic
Q-Learning
直接求Q函数的最大值
decrease increase 已经知道了Q函数的参数
43
强化学习 Critic基本框架
TD or MC
44
强化学习 Q-Learning
45
强化学习使用TD方法求Q(s,a)
54
RL&Recsys 研究背景
为了解决上述两种问题提出了建立在Action-Critic上的推荐框架 Actor用于输入当前的状态并旨在输出当前状态下较高action Critic使用价值函数根据state和Actor给出的action计算当前的Q值，
这是对当前state所选action是否匹配最优action的一个判断，Critic 网络采用跟b图相同的网络结构 Actor根据Critic的判断，更好的提高自己的性能，输出最优策略这种架构适合大型的action空间，而且减少了计算的冗余
1推荐系统协同过滤推荐算法
User-item rating matrix
用户-项目评分矩阵
推荐系统基于记忆的推荐
1.基于用户(user-based)的推
荐
根据余弦相似度计算用户间相似度
根据计算出来的相似度估计用户评分：（2.5）
推荐系统基于记忆的推荐
2.基于项目(item-based)的推荐
st
s1
s2
s3
s4
…
sN
at
a1
a2
…
aK
r(st, at)
r1
r2
…
rK
5
0
…
1
st+1
s3
s4
s5
…
a1
ak
59
RL&Recsys 模型框架
例如给用户推荐两个物品，每个物品的回报如下：因此这两个物品的最终回报会出现以下几种排列：
滑动 0
{(0, 0), (0, 1), (0, 5), (1, 0), (1, 1), (1, 5), (5, 0), (5, 1), (5, 5)},
63
RL&Recsys 模型框架
Critic的目的是根据当前S下做出的Action给出一个分数Q（s,a）： Q-Learning中的最优动作价值函数表达式：实际使用的推荐系统中使用的动作价值函数的计算公式：评价网络的损失函数为：
64
RL&Recsys 模型框架
Li表示推荐算法为用户i产生的推荐列表, Ri表示测试集中用户i偏好的全部项目.
强化学习目录
1 基本概念 2 算法原理 3 算法框架
24
强化学习基本概念
强化学习（ Reinforcement Learning，RL）是指没有任何标签的情况下，通过先尝试做出一些行为得到一个结果，通过这个结果是对还是错的反馈，调整之前的行为，这样不断的调整，算法能够学习到在什么样的情况下选择什么样的行为可以得到最好的结果。
5. ��: (��∈[0,1])，折扣因子，目的是为了减少未来的Reward
对当前动作的影响。
27
强化学习强化学习分类
Model-free 方法基于策略的
基于值的
学ritic
Model-based方法
28
强化学习 Actor基本框架
固定住
固定住
46
强化学习经典算法TD-Learning
经验回放
增加一些噪声
TD or MC
Actor
=
47
强化学习 DDPG Algorithm
The target networks update slower
Using target networks
48
强化学习经典算法DDPG
49
强化学习经典算法DDPG
基于模型的协同过滤算法能在一定程度上解决基于记忆的推荐算法面临的主要困难,在推荐性能上更优,但通常算法复杂,计算开销大.
推荐系统基于内容的推荐算法
文本推荐方法基于内容的推荐算法基于潜在语义分析的推荐
自适应推荐
推荐系统基于内容的推荐算法
1.文本推荐方法根据历史信息构造用户偏好文档,计算推荐项目与
fi=(ai1,ai2,… ,aim)表示用户i的初始资源分配,由图可知用户y1的初始资源分配： f′i表示用户i的最终资源分配,则有f′i= Wfi.用户1的最终资源分
配为：
④根据最终资源分配从大到小产生除了用户已经偏好项目外的推荐. 对用户1推荐项目的排序是:3>1>4>2=5
推荐系统混合推荐算法&其他推荐算法
混合推荐：为解决以上三种算法各自问题而提出的.
协同过滤& 基于内容
·两种方法单独进行将结果混合
·基于内容融合到协同过滤的方法中 ·协同过滤融合到基于内容方法中 ·混合到一个框架下产生新的推荐方法
其他推荐：基于关联规则（啤酒-尿布）和基于知识的推荐
推荐系统评价准则
1.平均绝对误差(mean absolute error,MAE) 用于度量推荐算法的估计评分与真实值之间的差异.
NN as actor
…
…
left 0.7 right 0.2
fire 0.1
通过概率采取下一步的动作
第一步：定义网络结构第二步：定义损失函数第三步：选择最优的模型
29
强化学习 Actor基本框架
30
强化学习 Actor计算方式
31
强化学习 Actor计算方式
32
强化学习 Actor计算方式
基于强化学习的推荐系统
1
目录S
目录
01 推荐系统 Recommendation System
02 强化学习 Reinforcement Learning
03 基于强化学习的推荐系统 Deep Reinforcement Learning for List-wise Recommendations
2
38
强化学习 Critic计算方式
时间差分（TD）方法：
-
39
强化学习 Critic两种计算方法对比
两个方法的对比：
方差会较大无偏估计
方差比较小
有偏估计
40
强化学习 AC算法
Advantage Function:
可以用Critic得到
增加一个Baseline
如果是正值如果是负值
41
强化学习 Q function原理
53
RL&Recsys 研究背景
针对state和action作为神经网络的输入，直接输出Q-Value 这种网络结构不需要在内存中存储每一个action对应的QValue，因此可以处理非常庞大的action空间、甚至是连续的动作，但是这种结构的时间复杂度较高，因为需要单独计算所有潜在的Q(state, action)值。
根据余弦相似度计算项目间相似度
根据计算出来的相似度估计评分
推荐系统基于模型的推荐
采用统计学、机器学习、数据挖掘等方法，根据用户历史数据建立模型，并产生合理推荐。
简单的评分模型：
推荐系统基于模型的推荐
基于模型的推荐
基于朴素贝叶斯分类的推荐基于线性回归的推荐基于马尔科夫决策过程的推荐
推荐系统基于模型的推荐
55
RL&Recsys 问题定义
目标对象：
Recommender Agent (RA)
环境：
User/模拟器
性质：
符合马尔科夫决策(MDP)过程
56
RL&Recsys 问题定义
st
s1
s2
s3
s4
…
sN
at
a1
a2
…
aK
r(st, at)
r1
r2
…
rK
57
RL&Recsys 问题定义
58
RL&Recsys 模型框架
1.基于朴素贝叶斯分类的推荐朴素贝叶斯分类方法的前提是假设样本的各个属性

e商务文档

基于强化学习的系统分享

相关文档推荐：