[发明专利]一种基于Q学习的混合云作业调度方法有效

申请号：	201610261706.2	申请日：	2016-04-22
公开（公告）号：	CN105930214B	公开（公告）日：	2019-04-26
发明（设计）人：	彭志平;崔得龙;李启锐;许波;柯文德	申请（专利权）人：	广东石油化工学院
主分类号：	G06F9/48	分类号：	G06F9/48;G06F9/455
代理公司：	广州润禾知识产权代理事务所(普通合伙) 44446	代理人：	凌衍芬
地址：	525000 广东省***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明公开一种基于Q学习的混合云作业调度方法，使用多agent并行学习，即每个agent独立进行最优策略学习，当某个agent最先得到满足error＜θ条件的策略时，就进行agent间的知识迁移。本发明通过分析用户作业在云环境中的执行流程，以最小化用户作业完成时间和等待时间为优化目标，设计了一种基于强化学习的混合云作业调度方法，并采用并行多agent技术加速最优策略的收敛，提高了云资源的利用率，降低了用户等级协议的违约率。
搜索关键词：	一种基于学习混合作业调度方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种基于Q学习的混合云作业调度方法，其特征在于，使用多agent并行学习，即每个agent独立进行最优策略学习，当某个agent最先得到满足error＜θ条件的策略时，就进行agent间的知识迁移，具体包括：定义Q学习的状态空间：将云环境资源池中活跃的虚拟机数量定义为状态空间；定义Q学习中的动作集合A：动作集合中包括2个动作，分别为接受当前被调度作业和拒绝当前被调度作业；定义系统的立即回报函数：其中，job_i.ini表示作业执行的指令数，job_i.fsize表示作业大小，VM_j.proc表示虚拟机处理速度，VM_j.bw表示虚拟机带宽；初始化Q(s,a)，其中Q(s,a)为二维表格，行s为状态空间，列a为动作集合；初始化状态空间S；S3：迭代执行S31至S36：S31：将s设置为当前状态；S32：使用贪心策略从动作集合A中选择动作；S33：执行所选择的动作，计算记录当前的立即回报函数，得到立即回报值r和下一个状态空间S’；S34：按式Q_t＝Q_t+α(r+γ*Q_t+1‑Q_t)，更新Q(s,a)，其中α∈(0,1)是学习速率，γ∈(0,1)是时间折扣因子，Q_t指的是t时刻的Q值，即t时刻的Q(s,a)，Q_t+1表示t+1时刻的Q值；S35：计算error＝MAX(error|Q_t‑Q_previous‑t)，Q_previous‑t指时刻t前一时刻的Q值；S36：判断error＜θ是否成立，若不成立则返回S31，若成立进行agent间的知识迁移，知识迁移是指若某一agent最快学习到最优策略，则用该agent的Q值表替换其他agent的Q值表；其中θ为固定比较值，根据需要设定。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于广东石油化工学院，未经广东石油化工学院许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201610261706.2/，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F9-00 程序控制装置，例如，控制器
G06F9-02 .应用有线连接的，例如，插头板
G06F9-04 .应用仅含程序指令的记录载体的
G06F9-06 .应用存入的程序的，即应用处理设备的内部存储来接收程序并保持程序的
G06F9-22 ..微控制或微程序装置
G06F9-30 ..执行机器指令的装置，例如指令译码

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于Q学习的混合云作业调度方法有效

专利文献下载