智能控制学习控制系统
制,以便逐步改进系统性能。
定义8.10 学习控制是一种控制方法,其中的实际经验起到控制参数和算法
类似的作用。
定义8.11 如果一个学习系统利用所学得的信息来控制某个具有未知特征的
过程,则称该系统为学习控制系统。
定义8.12 在有限时间域[0, T]内,给出受控对象的期望的响应yd(t),寻求某
个给定输入uk(t),使得uk(t)的响应yk(t),在某种意义上获得改善;其中,k为 搜索次数,t[0, T]。称该搜索过程为学习控制过程。当k→∞时, yk(t) yd(t), 则该学习控制过程是收敛的。
定义8.7 学习系统是一个能够学习有关过程的未知信息,并用所学信息作为
进一步决策或控制的经验,从而逐步改善系统的性能。
定义8.8 如果一个系统能够学习某一过程或环境的未知特征固有信息,并用
所得经验进统为学习系统。
定义8.9 学习控制能够在系统进行过程中估计未知信息,并据之进行最优控
系统,从而系统对特定的输入作用具有特定的响应。自学习就是不具外来校正 的学习,即不具奖罚的学习,它不给出系统响应正确与否的任何附加信息。
• Simon对学习给予更准确的定义: 定义8.5 学习表示系统中的自适应变化,该变化能使系统比上一次更有效地
完成同一群体所执行的同样任务。
• Minsky用一个比较一般的学习判据代替改善学习判据,他的判 据只要求变化是有益的: 定义8.6 学习在于使我们的智力工作发生有益的变化。
• 80年代:由于基于模式识别的学习控制方法存在收敛速度慢、占用内存大、
分类器选择涉及训练样本的构造以及特征选择与提取较难等具体实现问题,反 复学习控制及重复学习控制,在80年代被提出来,并获得发展。
8.2 学习控制方案
学习控制主要方案如下: 基于模式识别的学习控制、反复学习控制、重复学习控制、连
图8.2 基于模式识别学习控制系统的一种结构
上图所示的基于模式识别的学习控制系统,可被推广为一具 有在线特征辨识的分层(递阶)结构,如下图所示。从图可知, 该控制系统由三级组成,即组织级、自校正级和执行控制级。
组织级 自校正级 执行控制级
• Osgood在1953年从心理学的观点提出学习的定义: 定义8.3 在同类特征的重复环境中,有机体依靠自己的适应性使自身行为及
在竞争反应中的选择不断地改变和增强。这类由个体经验形成的选择变异即 谓学习。
• Tsypkin为学习和自学习下了较为一般的定义: 定义8.4 学习是一种过程,通过对系统重复输入各种信号,并从外部校正该
接主义学习控制,包括再励(强化)学习控制、基于规则的学习控 学习控制具有四个主要功能:搜索、识别、记忆和推理。学
习控制系统分两类,即在线学习控制系统和离线学习控制系统, 分别如图8.1(a)和8.1(b)所示。
图8.1 (a)在线学习控制系统
(b)离线学习控制系统 图8.1 学习控制系统原理框图
图中,R代表参考输入,Y—输出响应,u—控制作用,
• 50年代:对学习机的设想与研究始于50年代,学习机是一种模拟人的记忆
与条件反射的自动装置。学习机的概念是与控制论同时出现的。下棋机是学习 机器早期研究阶段的成功例子。
• 60年代:发展了自适应和自学习等方法。60年代开始研究双重控制和人
工神经网络的学习控制理论,其控制原理是建立在模式识别方法的基础上的。 另一类基于模式识别的学习控制方法把线性再励技术用于学习控制系统。 研究基于模式识别的学习控制的第三种方法是利用Bayes学习估计方法。
《智 能 控 制》 Intelligent Control
第八章 学习控制系统
8.1 学习控制概述
8.1.1 什么是学习控制
1. 学习的各种定义
• Wiener(维纳)于1965年对学习给出一个比较普遍的定义:
定义8.1 一个具有生存能力的动物在它的一生中能够被其经受的环境所改造。
一个能够繁殖后代的动物至少能够生产出与自身相似的动物(后代),即使这 种相似可能随着时间变化。如果这种变化是自我可遗传的,那么,就存在一种 能受自然选择影响的物质。如果该变化是以行为型式出现,并假定这种行为是 无害的,那么这种变化就会世代相传下去。这种从一代至其下一代的变化型式 称为种族学习或系统发育学习,而发生在特定个体上的这种行为变化或行为学 习,则称为个体发育学习。
自适应控制的应用范围比较有限。 当受控对象的运动具有可重复性时,即受控制系统每次进 行同样的工作时,就可把学习控制用于该对象。 学习控制已成为智能控制的一个重要领域。学习与掌握学 习控制的基本原理和技术能够明显增强控制工程师处理实际控 制问题的能力,并提供对含有不确定性现实世界的敏锐理解。
8.1.3 学习控制的发展
• C. Shannon在1953 定义8.2 假设(1)一个有机体或一部机器处在某类环境中,或者同该环境
有联系;(2)对该环境存在一种“成功的”度量或“自适应”度量;(3)这 度量在时间上是比较局部的,也就是说,人们能够用一个比有机体生命期短的 时间来测试这种成功的度量。对于所考虑的环境,如果这种全局的成功度量, 能够随时间而改善,那么我们就说,对于所选择的成功度量,该有机体或机器
根据上述定义,可把学习控制的机理概括如下: • 寻找并求得动态控制系统输入与输出间的比较简单的关系。 • 执行每个由前一步控制过程的学习结果更新了的控制过程。 •
8.1.2 为什么要研究学习控制
自适应控制系统能够在不确定的条件下进行有条件的决策。 学习系统是自适应系统的发展与延伸,它能够按照运行过程中 的“经验”和“教训”来不断改进算法,增长知识,以便更广 泛地模拟高级推理、决策和识别等人类的优良行为和功能。
s—转换开关。当开关接通时,该系统处于离线学习状态。
8.2.1 基于模式识别的学习控制
从图8.2可见,该控制器中含有一个模式(特征)识别单元和 一个学习(学习与适应)单元。模式识别单元实现对输入信息的 提取与处理,提供控制决策和学习与适应的依据;学习与适应单 元的作用是根据在线信息来增加和修改知识库的内容,改善系统