当前位置：文档之家› 强化学习

强化学习

现在有5间相连的房间，机器人起始状态是0-4 任意一个房间，房外（5号房）是目的地。
状态空间有6种，分别对应6个房间。
更新 Q 矩阵，记录机器人之前的经历。 Q 矩阵的更新公式如下：
Q(state, action) = R(state, action) + Gamma * Max[Q(next state, all actions)]
人类通常从与外界环境的交互中学习。所谓强化（reinforcement）学习是指从环境状态到行为映射的学习，以使系统行为从环境中获得的累积奖励值最大。在强化学习中，我们设计算法来把外界环境转化为最大化奖励量的方式的动作。我们并没有直接告诉主体要做什么或者要采取哪个动作,而是主体通过看哪个动作得到了最多的奖励来自己发现。主体的动作的影响不只是立即得到的奖励，而且还影响接下来的动作和最终的奖励
环境模型是对外界环境状态的模拟， Agent 在给定状态下执行某个动作，模型将会预测出下一状态和奖励信号。利用环境的模型，Agent 在作决策的同时将考虑未来可能的状态，进行规划。
Policy Reward Valu e Model of Environment
马尔科夫决策模型
很多强化学习问题基于的一个关键假设就是 Agent 与环境间的交互可以被看成一个马尔可夫决策过程 (MDP) ，因此强化学习的研究主要集中于对Markov问题的处理。马尔可夫决策过程的本质是：当前状态向下一状态转移的概率和 ห้องสมุดไป่ตู้赏值只取决于当前状态和选择的动作，而与历史状态和历史动作无关。
i 0
例如，将定义为所有将来奖赏值通过衰减率 γ (γ [0,1])作用后的总和。
V ( s) E ( t rt | s0 s)
t 0
(4-1)
其中，为t时刻的奖赏。
对于任一策略π ，定义值函数为无限时域累积折扣奖赏的期望值，即 (4-2) 其中，和分别为在时刻t的立即奖赏和状态，衰减系数γ (γ [0,1])使得邻近的奖赏比未来的奖赏更重要。
强化学习作为一种以环境反馈作为输入的、特殊的、适应环境的机器学习方法，具有如下特点：（1）强化学习是一种弱的学习方式，体现为：Agent通过与环境不断的试错交互来进行学习；强化信息可能是稀疏且合理延迟的；不要求（或要求较少）先验知识； Agent 在学习中所使用的反馈是一种数值奖赏形式，不要求有提供正确答案的教师；（2）强化学习是一种增量式学习，并可以在线使用；（3）强化学习可以应用于不确定性环境；（4）强化学习的体系结构是可扩展的。目前，强化学习系统已扩展至规划合并、智能探索、监督学习和结构控制等领域。
Q(1, 5) = R(1, 5) + 0.8 * Max[Q(5, 1), Q(5, 4), Q(5, 5)] = 100 + 0.8 * 0 = 100
假设机器人位于3号房间，可选动作有1,2,4. 假定选取1号动作。
Q(state, action) = R(state, action) + Gamma * Max[Q(next state, all actions)]
(5) V为准则(Crietrion)函数(或目标(Objective)函数)，常用的准则函数有期望折扣总报酬、期望总报酬和平均报酬等。
Q 强化学习
Q-learning 是一种于环境无关的强化学习。在任意一个马尔科夫过程中，Q方法都能找到一个最优的策略。 Q强化学习就是通过一个Q矩阵，找到一个最优（状态，动作）序列。
奖赏函数是在与环境交互的过程中，获取的奖励信号，奖赏函数反应了 Agent 所面临的任务的性质，同时，它也可以作为Agent修改策略的基础。奖赏信号R是对所产生动作的好坏作一种评价，奖赏信号通常是一个标量信号，例如用一个正数表示奖，而用负数表示罚，一般来说正数越大表示奖的越多，负数越小表示罚的越多。强化学习的目的就是使Agent 最终得到的总的奖赏值达到最大。奖赏函数往往是确定的、客观的，为策略的选择提供依据。
Agent
动作 Action 奖赏值 R 状态 S
环境
图描述了环境与智能体进行交互的一个基本框架。在图 4.1中给出的强化学习过程中，Agent不断地与环境进行交互，在每一时刻循环发生如下事件序列： (1)Agent感知当前的环境状态； (2)针对当前的状态和强化值，Agent选择一个动作执行； (3)当Agent所选择的动作作用于环境时，环境发生变化，即环境状态转移至新状态并给出奖赏（强化信号）； (4)奖赏（强化信号r）反馈给Agent。
强化学习模型
主体
状态 si 奖励 ri
ri+1 s0
动作 ai
a0
s1
a1
s2
a2
s3
si+1
环境
i: input r: reward s: state
a: action
强化学习概述
强化学习围绕如何与环境交互学习的问题，在行动——评价的环境中获得知识改进行动方案以适应环境达到预想的目的。学习者并不会被告知采取哪个动作，而只能通过尝试每一个动作自己做出判断。它主要是依靠环境对所采取行为的反馈信息产生评价，并根据评价去指导以后的行动，使优良行动得到加强，通过试探得到较优的行动策略来适应环境。试错搜索和延迟回报是强化学习的两个最显著的特征。但强化学习系统还具有以下更一般的特点： (1)适应性，即Agent不断利用环境中的反馈信息来改善其性能； (2)反应性，即Agent可以从经验中直接获取状态动作规则；
强化学习模型
除了Agent和环境，一个强化学习系统还有四个主要的组成要素：策略、奖赏函数、值函数以及可选的环境的模型。
策略也称决策函数，规定了在每个可能的状态，Agent 应该采取的动作集合。策略是强化学习的核心部分，策略的好坏最终决定了 Agent 的行动和整体性能，策略具有随机性。策略描述针对状态集合 S中的每一个状态 s，Agent应完成动作集A中的一个动作a，策略π ：S→A是一个从状态到动作的映射。关于任意状态所能选择的策略组成的集合 F ，称为允许策略集合，π F。在允许策略集合中找出使问题具有最优效果的策略π *，称为最优策略。
奖赏函数是对一个状态（动作）的即时评价，值函数则是从长远的角度来考虑一个状态（或状态-动作对）的好坏。值函数又称为评价函数。状态st的值，是指Agent在状态st根据策略π 执行动作 at及采取后续 i V ( st ) E ( rt i ) 策略所得到的积累奖赏的期望，记为。
强化学习原理
强化学习系统的基本框架主要由两部分组成，即环境和智能体（Agent）。智能体可以通过传感器（Sensor）感知所处环境，并通过执行器（Actuator）对环境施加影响。从广义上讲，除该智能体之外，凡是与该智能体交互的物体，都可以被称为环境。强化学习的基本原理是：如果智能体（ Agent ）的某个行为策略导致环境对智能体正的奖赏（Reward），则智能体以后采取这个行为策略的趋势会加强。反之，若某个行为策略导致了负的奖赏，那么智能体此后采取这个动作的趋势会减弱。。
Q-学习训练算法 1.设置学习参数，奖励矩阵R 2.初始化矩阵Q
3.每次训练中
随机设置机器人的初试状态 • 当机器人为达到目标点： • 从R矩阵中找出当前状态可执行的动作，并从中选取一个动作 • 找出最大的Q（state，action），并更新Q矩阵
Q-学习执行算法设当前状态=初始状态
• 从Q矩阵中找到最大的Q（state，action） • 设当前状态=下一个状态 • 重复上两步，知道机器人到达目的地
在强化学习过程中，智能体通过观察其与环境交互改善自己的行为。为了方便起见，假定在时刻点t=1，2，3，…处观察某个系统，一个有限的Makrov决策过程由5元组组成：其中各个元的含义如下： (1) s为系统所有可能的状态所组成的非空集，有时也称为系统的状态空间，它可以是有限的、可列的或任意非比空集。在本文中，假定 S为有限的，用小写字母s,等来表示状态。 (2) 对sS，A(s)是在状态s下所有可能动作集合。 (3) 当系统在决策时刻点 t处于状态s，执行动作a之后，则系统在下一个决策时刻点t+1时处于状态s'的概率为p(s,a,)。称P={p(s,a,)} 为转移概率矩阵。 (4) 当系统在决策时刻点 t处于状态s，执行决策a后，系统于本段情节获得的报酬为r(s,a)，常称R=r(s,a)为报酬函数。
假设现在机器人初始状态位于1号房
0 0 0 0 0 0 0 0 0 0 0 100 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
Q(state, action) = R(state, action) + Gamma * Max[Q(next state, all actions)]
Q(3, 1) = R(3,1) + 0.8 * Max[Q(1, 3), Q(1, 5)] = 0 + 0.8 *100= 80
强化学习的过程可以总结如下： Agent 选择一个动作 a作用于环境，环境接收该动作后发生变化，同时产生一个强化信号（奖或罚）反馈给Agent，Agent再根据强化信号和环境的当前状态s 再选择下一个动作，选择的原则是使受到正的奖赏值的概率增大。选择的动作不仅影响立即奖赏值，而且还影响下一时刻的状态及最终强化值。强化学习的目的就是寻找一个最优策略，使得 Agent 在运行中所获得的累计奖赏值最大。

e商务文档

强化学习

相关文档推荐：