当前位置：文档之家› 基于强化学习的云计算资源调度策略研究

基于强化学习的云计算资源调度策略研究

上海电力学院学报Journal of Shanghai University of Elect/z Power第35卷第4期2019年8月Vol. 35,No. 4Aug. 2019DOI ： 10. 3969/j. issn. 1006 -4729.2019. 04. 018基于强化学习的云计算资源调度策略研究李天宇（国网上海电力公司信息通信公司，上海200030）摘要:提出了一种基于强化学习的云计算虚拟机资源调度问题的解决方案和策略。

构建了虚拟机的动态负载调度模型,将虚拟机资源调度问题描述为马尔可夫决策过程。

根据虚拟机系统调度模型构建状态空间和虚拟机数量增减空间，并设计了动作的奖励函数。

采用0值强化学习机制，实现了虚拟机资源调度策略。

在云平台的虚拟机模型中，对按需增减虚拟机数量和虚拟机动态迁移两种场景下的学习调度策略进行了仿真，验证了该方法的有效性。

关键词：云计算；虚拟机；强化学习；控制策略中图分类号:TP399 文献标志码:A 文章编号：1006 -4729（2019）04 -0399 -05ReeearchonCloudCompurnng ReeourceSchedulnng SrraregyBased on Reinforcement LearningLDTianyu(Statr Gri Shanghai Municipal Electric Powes Company ，Shanghai 200030, China)Aberracr ： A solution to cloud computing resourcescheduling problem based on reinforcementlearning isproposed8Thedynamicload scheduling model of the virtual machine is constructed ，and thevirtualmachineresourcescheduling problem isdescribed astheMarkov decision proce s 8Ac-cording to thevirtualmachinesystem scheduling model ，thestatespaceand thenumberofvirtualmachinesareincreased ordecreased ， and thereward function oftheaction isdesigned8TheQ-valued reinforcementlearning mechanism isused to implementthevirtualmachineresource scheduling strategy8Fina l y ，in thevirtualmachinemodelofthecloud platform ，theperformanceofthelearning and scheduling strategy isenhanced underthescenariosofincreasing ordecreasing the numberofvirtualmachinesand virtualmachinedynamicmigration8Thee f ectivene s ofthemethod is verified8Key worre : cloud computing ； virtual machine ； reinforcement learning ； control strategy云计算是一种新兴的领先信息技术，云计算是在“云”上分配计算任务，通过专用软件实现的自动化管理使用户能够按需访问计算能力、存储空间和信息服务，用户可以专注于自己的业务，无需考虑复杂的技术细节，有助于提高效率、降低成本和技术创新。

云计算研究的关键技术有:虚拟化技术、数据存储技术、资源管理技术、能源管理技术、云监控技术等。

其中，系统资源调度是云计算中的关键问题之一。

然而，由于云计算平台上应用程序的多样性收稿日期：2018-12-17通讯作者简介:李天宇（1986—），男，硕士，工程师&主要研究方向为云计算& E-mail ：lihanyu@ sh. sgcc. com. cn 。

400上海电力学院学报2019年和用户负载的动态变化，可能发生节点之间负载不平衡的问题，载、资源不足,而另一载闲置空闲，极大地计算系统的整体性能。

此外,计算资源规模的扩大，资源集群的人工或手动管理变得&,的算法自动协调间的负载,提升云计算平台的资源利用率已成为云计算领域要解决的问题〔T。

统的虚拟机资源调度策略算法不同，强化学习(Reinforcement Leaming,RL)算法是一种无调度方法，不需要系统的先识&法定决，定，化模型中的智能体(Agent)和环境(Environment),通过使智能体与环境交互学习，获得系统的和动态特性&交互过程中，定奖励(Reward)和惩罚(Punishment)来能体的行为，并大化累计奖赏获得控制⑷。

文献[5-6*研究学习态计算资源管理中的应用，以云计拟资源的配置问题为学习对象，从控制的角度进研究。

文献)6*着重每拟机的计算资源分配，并将为学习对象，构分布拟机资源自置系统。

但是,该方法仅从每拟机资源,忽拟集群的整体资源性能&文针对户负载动态的云计算虚拟机资源调度问题，设计基于Q学习的计拟机资源调度方法。

将系统虚拟机的配置管理过程描述为决程(Markov Decision Process,MDP),并根据系统中的运行状态和输入负载的动态变化引入Q学习机制。

智能体拟机资源环境的持续交互来获得最佳虚拟机调度&最后,本文以按需增减虚拟拟态景为例，进仿真研究，并分同场景化学习的能&1虚拟机资源调度决策模型1・1虚拟机调度结构文研究的计拟资源调度用户、监视器、调度拟机资源池等组成&虚拟机资源调度结构如图1所示&其中,调度程序自动将虚拟机的决块配置为；学习的智能体结构，发挥拟机的资源决策调度&态载平，户载所拟，拟调度将控制器调节相应的虚拟，以达户载平&用户排队模型需求队列资源池图1虚拟机资源调度结构示意1.2虚拟机决策模型强化学习方法侧重于学习解决问题的策略&学习方法相比，学习算法更注重环境的交互&本文构建的学习智能体将虚拟机资源调度问题为间序列的可决程，智能体观为提取的特征&决程，同时考励的&基决程，文定拟机调度策略问题，在每间步上，智能体观包学习中的状态i，动a-励函数i&系统状态i取a-并4状态i+1,s—i=4(s,a t，.t%{0,1,2，…,H-1}(1)励函数i与状态转移函数P相关联，可表为r-=5»,卑,》+1),.t%{0,1,2,…,H-11(2)文研究的问题是寻找最优策略h+，使得整个优化范围内获得的奖励G t最大&G的表达式为李天宇:基于强化学习的云计算资源调度策略研究4017-=-"，+(3)=0式中:,---折扣因子，未来奖励在学习中的重要性而设定,,％［0,1］。

当智能体〃时,累计回报服从一个分布,累计回状态S处的期望值定义为状态-动作值函数Q#(s,a)。

罗oubf Q FyQ(S F,a*；(-)(7)网络的(是更新的，每经过N轮迭代，即可将网络的参数复制给目标值网络&Q值和目标Q间的均方误差来更新网&误(为(t=1t-A(罗oubU Q-Q(s,a；())"］(8)Q h(s,a)=E h("t=0,a t=a)(4)双重0值网络误差函数误差函数的梯度arg max。

Q(s,a;0)定义最优Q值函数为Q*(所有策略中最大的状态)，即Q*(s,a)=max Q#(s,a)(5)h若已知Q*，则最优策略h*可通过直接最大Q*(s,a)来定,h *(a_s)=arg maxQ*(s,a)(6)a%A (s,a/,s')0(s,Q；6)每隔N时间/步拷贝参数当前值网络"人步拷贝参数max，。

Gk"')目标值网络回放记忆单元图2双重。

值网络培训流程2虚拟机调度策略的实现2.1深度。

值强化学习过程虚拟机资源调度问题的学习目标是通过使用调度系统模块的时间序列来添加拟机作为决策变量，利能体的反馈信号，环互动，调改善智能决策行为从得最佳调度策略。

文献)5-6］将强化学习引入到云计算虚拟资源的配置中，文献［7-10］将学习引入：际应景的综合研究中。

本文深度Q值学习算法来解决虚拟机资源自置决策问题，即计算应用系统中的运行状态,调度决块，并特定从空间中动作，以改善系统的状态和处理能力。

对于Q值,问题，使用诸如神经网络的非线逼近器来近似&深度Q学习算法使用的是双重Q值网络结构。

图2为双重Q值网络的培训流程图，介绍了系统培训过程。

重Q值网络将评估用不同的来实现,重Q值网决的过估计问题,如图2所示&更新中，目标值可以表示为强化学习过程中，Q值学习算法采用随机梯度下降法修正网，使网络计算的Q值接近目&，更新网为=(-+$(罗oubU Q-Q(s,a；())V Q(s,a；()(9) 2.2马尔可夫决策过程元组描述2.2.1状态空间文献)7-8］，虚拟机自动调度决策需要解决状态空间中的拟机资源配置行为，因此将拟群中的虚拟机资源置决中的状态空间。

调度决的状态空间S表示为S=1s s,s3，O，s n1(1°) 2.2.2动作空间户，对不同的物理资源和虚拟资源进态划分或释放。

户要这部分资源时，将释放。

云计为用户提供的这种资源利用的可扩&文献)9-10］，在每间步长上，学习智能体采的离散包括添加虚拟机、虚拟保置拟机3种状态。

本文将空间a划分成3个数值，即a%［0,1,2］。

a二0指示调度决块添加虚拟机,a o1拟保持空,a o2调度决块拟机。

402上海电力学院学报2019年2.2.3励学习中的奖励得作环境的优劣评估值。

它是励函〔⑴。

应系统添加拟，虚拟机资源的系统状态（例CPU,带宽利用率）相应地变化。

，增加应用系统的处理能力，计应用提供商所需的系统处理要求，还户的加载请求,并置较大的励值;反，经调，产负荷损失，可设定为负的惩罚值。

i=Sa f，d t）=r+（a t，d t）+r-（a t，d t）（11）式中:at——加值；d t------;r+（a t，d t）满足用户负荷需求的奖励；r-（a t，d t）不能满足负荷需求的惩罚。

e商务文档

基于强化学习的云计算资源调度策略研究

相关文档推荐：