强化学习
现在有5间相连的房间,机器人 起始状态是0-4 任意一个房间,房外(5号房)是目的地。
状态空间有6种,分别对应6个房间。
更新 Q 矩阵,记录机器人之前的经历。 Q 矩阵的更新公式如 下:
Q(state, action) = R(state, action) + Gamma * Max[Q(next state, all actions)]
人类通常从与外界环境的交互中学习。所谓强化 (reinforcement)学习是指从环境状态到行为映射的学 习,以使系统行为从环境中获得的累积奖励值最大。在 强化学习中,我们设计算法来把外界环境转化为最大化 奖励量的方式的动作。我们并没有直接告诉主体要做什 么或者要采取哪个动作,而是主体通过看哪个动作得到了 最多的奖励来自己发现。主体的动作的影响不只是立即 得到的奖励,而且还影响接下来的动作和最终的奖励
环境模型是对外界环境状态的模拟, Agent 在给定状态下 执行某个动作,模型将会预测出下一状态和奖励信号。利 用环境的模型,Agent 在作决策的同时将考虑未来可能的 状态,进行规划。
Policy Reward Valu e Model of Environment
马尔科夫决策模型
很多强化学习问题基于的一个关键假设就是 Agent 与环境 间的交互可以被看成一个马尔可夫决策过程 (MDP) ,因此 强化学习的研究主要集中于对Markov问题的处理。马尔可 夫决策过程的本质是:当前状态向下一状态转移的概率和 ห้องสมุดไป่ตู้赏值只取决于当前状态和选择的动作,而与历史状态和 历史动作无关。
i 0
例如,将定义为所有将来奖赏值通过衰减率 γ (γ [0,1])作用后的总 和。
V ( s) E ( t rt | s0 s)
t 0
(4-1)
其中,为t时刻的奖赏。
对于任一策略π ,定义值函数为无限时域累积折扣奖赏的期望值,即 (4-2) 其中,和分别为在时刻t的立即奖赏和状态,衰减系数γ (γ [0,1])使 得邻近的奖赏比未来的奖赏更重要。
强化学习作为一种以环境反馈作为输入的、特殊的、适应 环境的机器学习方法,具有如下特点: (1)强化学习是一种弱的学习方式,体现为:Agent通过 与环境不断的试错交互来进行学习;强化信息可能是稀疏 且合理延迟的;不要求(或要求较少)先验知识; Agent 在学习中所使用的反馈是一种数值奖赏形式,不要求有提 供正确答案的教师; (2)强化学习是一种增量式学习,并可以在线使用; (3)强化学习可以应用于不确定性环境; (4)强化学习的体系结构是可扩展的。目前,强化学习 系统已扩展至规划合并、智能探索、监督学习和结构控制 等领域。
Q(1, 5) = R(1, 5) + 0.8 * Max[Q(5, 1), Q(5, 4), Q(5, 5)] = 100 + 0.8 * 0 = 100
假设机器人位于3号房间,可选动作有1,2,4. 假定选取1号动作。
Q(state, action) = R(state, action) + Gamma * Max[Q(next state, all actions)]
(5) V为准则(Crietrion)函数(或目标(Objective)函数),常用的准 则函数有期望折扣总报酬、期望总报酬和平均报酬等。
Q 强化学习
Q-learning 是一种于环境无关的强化学习。在任意一个马尔科夫过程 中,Q方法都能找到一个最优的策略。 Q强化学习 就是通过一个Q矩阵,找到一个最优(状态,动作)序列。
奖赏函数是在与环境交互的过程中,获取的奖励信号,奖 赏函数反应了 Agent 所面临的任务的性质,同时,它也可 以作为Agent修改策略的基础。奖赏信号R是对所产生动作 的好坏作一种评价,奖赏信号通常是一个标量信号,例如 用一个正数表示奖,而用负数表示罚,一般来说正数越大 表示奖的越多,负数越小表示罚的越多。强化学习的目的 就是使Agent 最终得到的总的奖赏值达到最大。奖赏函数 往往是确定的、客观的,为策略的选择提供依据。
Agent
动作 Action 奖赏值 R 状态 S
环境
图描述了环境与智能体进行交互的一个基本框架。在图 4.1中给出的强化学习过程中,Agent不断地与环境进行交 互,在每一时刻循环发生如下事件序列: (1)Agent感知当前的环境状态; (2)针对当前的状态和强化值,Agent选择一个动作执行; (3)当Agent所选择的动作作用于环境时,环境发生变化, 即环境状态转移至新状态并给出奖赏(强化信号); (4)奖赏(强化信号r)反馈给Agent。
强化学习模型
主体
状态 si 奖励 ri
ri+1 s0
动作 ai
a0
s1
a1
s2
a2
s3
si+1
环境
i: input r: reward s: state
a: action
强化学习概述
强化学习围绕如何与环境交互学习的问题,在行动——评 价的环境中获得知识改进行动方案以适应环境达到预想的 目的。学习者并不会被告知采取哪个动作,而只能通过尝 试每一个动作自己做出判断。它主要是依靠环境对所采取 行为的反馈信息产生评价,并根据评价去指导以后的行动, 使优良行动得到加强,通过试探得到较优的行动策略来适 应环境。试错搜索和延迟回报是强化学习的两个最显著的 特征。但强化学习系统还具有以下更一般的特点: (1)适应性,即Agent不断利用环境中的反馈信息来改善其 性能; (2)反应性,即Agent可以从经验中直接获取状态动作规则;
强化学习模型
除了Agent和环境,一个强化学习系统还有四个主要的组 成要素:策略、奖赏函数、值函数以及可选的环境的模型。
策略也称决策函数,规定了在每个可能的状态,Agent 应 该采取的动作集合。策略是强化学习的核心部分,策略的 好坏最终决定了 Agent 的行动和整体性能,策略具有随机 性。 策略描述针对状态集合 S中的每一个状态 s,Agent应完成 动作集A中的一个动作a,策略π :S→A是一个从状态到动 作的映射。 关于任意状态所能选择的策略组成的集合 F ,称为允许策 略集合,π F。在允许策略集合中找出使问题具有最优效 果的策略π *,称为最优策略。
奖赏函数是对一个状态(动作)的即时评价,值函数则是从长远的角 度来考虑一个状态(或状态-动作对)的好坏。值函数又称为评价函 数。 状态st的值,是指Agent在状态st根据策略π 执行动作 at及采取后续 i V ( st ) E ( rt i ) 策略所得到的积累奖赏的期望,记为。
强化学习原理
强化学习系统的基本框架主要由两部分组成,即环境和智 能体(Agent)。智能体可以通过传感器(Sensor)感知 所处环境,并通过执行器(Actuator)对环境施加影响。 从广义上讲,除该智能体之外,凡是与该智能体交互的物 体,都可以被称为环境。 强化学习的基本原理是:如果智能体( Agent )的某个行 为策略导致环境对智能体正的奖赏(Reward),则智能体 以后采取这个行为策略的趋势会加强。反之,若某个行为 策略导致了负的奖赏,那么智能体此后采取这个动作的趋 势会减弱。。
Q-学习 训练算法 1.设置学习参数,奖励矩阵R 2.初始化矩阵Q
3.每次训练中
随机设置机器人的初试状态 • 当机器人为达到目标点: • 从R矩阵中找出当前状态可执行的动作,并从中选取一 个动作 • 找出最大的Q(state,action),并更新Q矩阵
Q-学习执行算法 设当前状态=初始状态
• 从Q矩阵中 找到最大的Q(state,action) • 设当前状态=下一个状态 • 重复上两步,知道机器人到达目的地
在强化学习过程中,智能体通过观察其与环境交互改善自己的行为。 为了方便起见,假定在时刻点t=1,2,3,…处观察某个系统,一个 有限的Makrov决策过程由5元组组成: 其中各个元的含义如下: (1) s为系统所有可能的状态所组成的非空集,有时也称为系统的状 态空间,它可以是有限的、可列的或任意非比空集。在本文中,假定 S为有限的,用小写字母s,等来表示状态。 (2) 对sS,A(s)是在状态s下所有可能动作集合。 (3) 当系统在决策时刻点 t处于状态s,执行动作a之后,则系统在下 一个决策时刻点t+1时处于状态s'的概率为p(s,a,)。称P={p(s,a,)} 为转移概率矩阵。 (4) 当系统在决策时刻点 t处于状态s,执行决策a后,系统于本段情 节获得的报酬为r(s,a),常称R=r(s,a)为报酬函数。
假设现在 机器人初始状态位于1号房
0 0 0 0 0 0 0 0 0 0 0 100 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
Q(state, action) = R(state, action) + Gamma * Max[Q(next state, all actions)]
Q(3, 1) = R(3,1) + 0.8 * Max[Q(1, 3), Q(1, 5)] = 0 + 0.8 *100= 80
强化学习的过程可以总结如下: Agent 选择一个动作 a作 用于环境,环境接收该动作后发生变化,同时产生一个强 化信号(奖或罚)反馈给Agent,Agent再根据强化信号和 环境的当前状态s 再选择下一个动作,选择的原则是使受 到正的奖赏值的概率增大。选择的动作不仅影响立即奖赏 值,而且还影响下一时刻的状态及最终强化值。强化学习 的目的就是寻找一个最优策略,使得 Agent 在运行中所获 得的累计奖赏值最大。