深度学习
2.2状态特征提取
• 在基于视觉的控制系统中,系统状态由图片体现,其维度高,不容易 进行人工特征抽取,不利于系统的分析综合与控制。深度学习十分适 合对图片数据进行降维与特征提取,所以深度学习主要应用在基于视 觉的控制系统的状态特征提取。 • Atari是一款计算机游戏如下图,玩家通过计算机屏幕显示的游戏场景, 决策执行的游戏动作,获取游戏得分。在深度学习进行的Atari游戏的 系统中,游戏场景以图片的形式输入CNN网络,CNN网络与Q网络 (用于获得系统预期回报函数的网络)连接,游戏动作的决策是最终 的输出。系统会选择网络输出节点中预期回报最高的节点所代表的游 戏动作执行。
1.1 深度置信网络
• DBN是由一组受限玻尔 兹曼机(RBM)堆叠而 成的,通过无监督的深 度置信网络来进行预训 练(Pre-training),可 以最优化网络的权重, 然后通过bp算法进行全 局微调(Fine tuing), 往往能得到比随机初始 化更好的结果。深度置 信网络的时间复杂度与 网络的大小和深度呈线 性关系。
1.1 深度置信网络
• RBM的特点:层间全连接,层内无连接。 • 给定可见层单元状态(输入数据)时,各隐单元的激 活条件独立;反之,给定隐单元状态时,可见层单元 的激活也条件独立。 • 这里我们假设有n个可见单元和m个隐单元,均服从伯 努利分布(实际中也可以是高斯分布或指数分布)。
1.1 深度置信网络
2.1控制目标识别
• 先进机械手抓取系统中,系统首先需要检测被抓取物的位置、 识别被抓取物并估计其姿态以确定机械手需要达到的位置和角 度。下面以此为例说明深度学习在控制目标识别中的作用。 • 下图显示了先进机械手抓取系统的流程。输入数据是颜色深度 图,系统先检测出物体位置,然后从图片中分割出包含物体的 统一大小图片。在物体识别姿态估计过程中,将获取的统一大 小图片以二维矩阵的方式输入CNN网络,经过计算在网络的输 出端获得物体的类别,该类别信息包含了物体的种类和姿态。 • 深度学习作用于物体识别和姿态估计过程。CNN网络结构建立 后,收集一定数量具有标签的图片数据训练并测试网络性能, 获取训练完成的CNN网络。当有新的图片样本输入时,网络经 计算输出物体的类别。机械手调整好姿态后完成抓取动作。
xlj
l yil 1 kij blj
•
x
y
第j个特征图的偏置; i M j 为前一层中与当前层第j个特征图有连接的 所有特征图。 • 通过卷积层后,特征图的个数增加,使得特征维数快速上升,为了避 免陷入维数灾难,在卷积层后增加子采样层S 2 , S 4 ,它可以在保留原 始特征信息的条件下,极大地降低特征维数,并且具有平移不变性等 优自动编码器(AE) • 编码过程:输入x到隐层的 h f ( x) S f (Wx bn ) 映射, • 解码过程:将隐层数据映 射回重构y,即 y g (h) S g (W h by ) • 训练过程:通过最小化重 构误差 1 2 J AE x y 2 得到参数 {W , by , bh } 。
1.3卷积神经网络
• 上图中, C1 , C3 , C5 表示卷积层,通过卷积运算,可以使原信号特征增 强,并且降低噪音。卷积层中一个可训练的卷积核与上一层中不同组 合的特征图进行卷积,加上偏置得到当前层的特征图。即:
iM j l l 1 式中, j 为第l层第j个特征图的输入;i 为第l-1层第i个特征图的输出; l l 为前一层第 i 个特征图与当前层第 j 个特征图之间的卷积核; ij j 为第l层
2.4控制策略计算
• 智能控制系统中, 控制策略指一 串动作或一个决策(alphago)。 控制器获取系统状态进行控制 策略计算。深度学习在控制策 略计算方面的研究主要集中在 有监督信号的情形。(PID) • 运动控制函数研究中,从最顶 层开始逐层训练AE,高层AE训 练完后,其隐层输出作为低层 AE的输入,继续训练直到SAE 训练完成。然后使用神经网络 将系统输入端连接至已经训练 好的网络。最后再用样本对整 个网络进行训练得到最终结果。
深度学习在控制领域 的研究现状与展望
1.深度学习的概述; 2.研究现状与应用; 3.总结与展望。
1.深度学习的概述
• 深度学习起源于神经网络的研究,由于反向传播算法 (bp算法)往往从一些随机的初始点开始,目标函数 经常会陷入局部最优的境地。随网络层数的加深,局 部最优的情况也会变得越来越严重,收敛速度也会变 慢。深度学习缓解了深度模型相关的最优化难题,且 泛化能力强。目前应用较多的深度学习基本模型包括: • 深度置信网络(DBN) • 堆栈自动编码器(SAE) • 卷积神经网络(CNN) • 递归神经网络(RNN)
1.2堆栈自动编码器
• 类似于DBN,SAE由多个AE堆 叠而成。基本步骤如下: 1.以无监督的方式训练神经网络的 第一层,将其输出作为原始输 入的最小化重构误差; 2.每个隐含单元的输出作为下一层 的输入,用无标签数据对下一 层进行训练,将误差控制在一 定范围内; 3.重复步骤2,直到完成隐含层训 练为止; 4.将最后一个隐含层的输出作为有 监督层的输入,最后通过bp算 法微调参数。
k
b
xlj f ( lj down( xlj1 ) blj )
1.3卷积神经网络
l 1 l down( x ) • 式中, 为对第l-1层第j个特征图进行子采样; j 为乘性偏置; j xlj 为第l层第j个特征图。 blj 为加性偏置;激活函数为 f (*) ;
• 全连接层上的每一个神经单元,均与上一层特征图中的所有神经单元 互相连接。每一个神经单元的输出可以用下式表示:
Z
• 其中, Z exp( E (v, h; )) 是一个归一化因子或陪 分函数。 v h
1.1 深度置信网络
• 由此得到模型关于可见向量v的边缘分布或似然函数: exp( E (v, h; )) p(v; ) h • 所需的参数 可通过最大化RBM在训练集上的对数似 然函数得到。 • 将一定数目的RBM堆叠组成一个DBN,然后从底向 上逐层预训练。堆叠过程如下:训练一个RBM后,将 隐单元的激活概率作为下一层RBM的输入数据;第二 层RBM的激活概率作为第三层RBM的可见输入数据, 以后各层以此类推。最优用bp算法调节权重和偏置。
2.3系统参数辨识
• 对于复杂的非线性动态系统,其模型难以用线性函数或者先验知识建 立。而神经网络具有拟合复杂非线性函数的能力,可以用于系统辨识。 浅层神经网络在训练中容易收到局部最优等问题的影响,故将系统模 型由深度神经网络代替,系统辨识任务就转变成深度神经网络的参数 优化。 • 使用深度学习进行系统参数辨识的控制系统一般涉及模型预测控制。 模型预测控制的主要思想是在每个时刻基于系统当前状态和预测模型, 计算出系统未来一段时间的最优控制序列,并执行序列的首个控制策 略。其中, 预测模型使用深度学习实现。 • 直升机动态模型使用深度ReLU网络模型拟合,主要思想是利用历史 一段时间的数据预测未来时刻的加速度。 • 切割机器人考虑了系统状态在时间序列上的相关性,使用RNN构建系 统动态模型,利用历史时间窗的系统状态预测未来时间窗的系统状态。 • 车杆摆动系统使用深度神经网络拟合系统动态模型,利用当前时刻的 状态和控制输入预测下一时刻状态与当前时刻状态的差值。
• 对一组状态(v,h),定义能量函数:
E (v, h; ) wij vi h j bi vi a j h j
i 1 j 1 i 1 j 1 n m n m
{wij , ai , b j } 为模型参数,即为所求。 • 其中, • 可见单元和隐单元的联合概率分布为: exp( E (v, h; )) p(v, h, )
3.总结与展望
• 总结:由于在特征提取以及模型拟合等方面显示出的潜力和优势,深 度学习已经被用于控制领域的相关研究,并且在一些控制系统中表现 出了较好的性能。但是,从上文的研究现状可以看出,深度学习主要 在涉及视觉的控制系统中具有应用的优势。对于控制目标识别,其识 别的对象是图片中物体的种类和姿态;对于状态特征提取,其提取的 是场景图片的抽象特征;对于系统参数辨识,其本质也是从系统状态 中提取特征,然后拟合特征和输出之间的关系;对于控制策略计算, 输出控制策略的深度网络需要从已有的范例中学习如何计算控制策略, 网络对系统的控制性能在很大程度上会受训练范例的影响,不能估计 其对系统出现的新情况的控制效果。 • 综上,目前深度学习在控制领域的研究虽然已有以上介绍的一些实例, 但是相关研究的报道仍然相对较少,研究的广度和深度都略显不足。 • 展望:仿人感知与控制、无人系统、强化自适应控制、复杂系统、控 制性能指标。
2.3系统参数辨识
• 以车杆摆动系统为例,深度网络经过训练能够拟合系统动态模型后, 在输出端引入一个新的节点代表预期回报函数。这样,深度网络同时 st 表示系统在t时 表达了系统动态模型和动作评价函数。如下图所示, at 表示系统在t时刻所采取的动作, Q( st , at ) 表示系统在状态st 刻的状态, 下,执行动作 at 所得到的预期回报函数。 • 网络训练结合了强化学习的方法,每一步执行最优的动作并且根据每 一步产生的回报训练Q网络,用深度网络拟合系统动态模型的步骤相 当于对 Q 网络的预训练。实验证明,经过预训练的Q网络能够比直接 使用强化学习训练的Q网络更快达到较好优化水平。
1.4递归神经网络
• RNN训练时,可使用RBM或者AE对其进行预训练来初始 化网络参数,然后计算每个样本的输出误差,并以累计误 差训练网络参数。 • RNN可用于处理时序数据或者前后关联数据。RNN还可以 和CNN结合使用,处理考虑样本之间相关性问题。
2.深度学习在控制领域的研究与应用
• 就已有的研究报道,目前的研究主要集中在控制目标识别、 状态特征提取、系统参数辨识、控制策略计算等方面。尤 其是深度学习和强化学习的结合已经产生了令人振奋的研 究成果。如图所示,深度学习在控制系统的各环节均有应 用研究,下面从控制系统的角度分类,从四个方面介绍深 度学习在控制领域的研究现状。