[发明专利]基于强化学习算法的矿井数字孪生云平台资源调度方法在审
申请号: | 202211708513.9 | 申请日: | 2022-12-29 |
公开(公告)号: | CN115951971A | 公开(公告)日: | 2023-04-11 |
发明(设计)人: | 范涛;刘再斌;马良;韩保山;李贵红;李鹏;巨朝晖;雷晓荣 | 申请(专利权)人: | 中煤科工西安研究院(集团)有限公司 |
主分类号: | G06F9/455 | 分类号: | G06F9/455;G06F9/50;G06F9/48;G06N20/00 |
代理公司: | 西安恒泰知识产权代理事务所 61216 | 代理人: | 周春霞 |
地址: | 710077 陕*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 强化 学习 算法 矿井 数字 孪生 平台 资源 调度 方法 | ||
1.一种基于强化学习算法的矿井数字孪生云平台资源调度方法,其特征在于,包括:
确定数字孪生系统中虚拟机数量;
获取所有子任务的状态;
将所述虚拟机数量和所述所有子任务的状态输入到强化学习模型中的演员网络中,得到虚拟机的调度路径。
2.如权利要求1所述的方法,其特征在于,方法还包括对所述强化学习模型进行训练,得到训练后的强化学习模型。
3.如权利要求2所述的方法,其特征在于,对所述强化学习模型进行训练,包括:
所述强化学习模型包括智能体和环境,所述智能体包括演员网络、评论家网络和环境;所述演员网络为基于价值的强化学习模型;所述评论家网络为基于策略的强化学习模型;
将虚拟机数量和所有子任务的状态输入到所述演员网络,输出动作,所述动作为虚拟机的调度路径;
所述动作输入到所述评论家网络,所述评论家网络对所述动作进行评价,得到价值,并将所述价值反馈给所述演员网络;
所述动作还输入到所述环境中,所述环境根据所述动作输出奖励,并反馈到所述智能体;
所述演员网络根据获取的所述价值,对自身进行更新,直至达到最大迭代次数,得到训练后的强化学习模型。
4.如权利要求3所述的方法,其特征在于,所述奖励为优化目标的倒数,优化目标T为:
其中,t为设计调度所需时间,Tmin为完成任务的最优处理时间,Tmax为完成任务的最差处理时间。
5.一种基于强化学习算法的矿井数字孪生云平台资源调度装置,其特征在于,包括:
虚拟机数量确定模块,用于确定数字孪生系统中虚拟机数量;
子任务状态获取模块,用于获取所有子任务的状态;
虚拟机调度路径获取模块,用于将所述虚拟机数量和所有子任务的状态输入到强化学习模型中的演员网络中,得到虚拟机的调度路径。
6.如权利要求5所述的装置,其特征在于,装置还包括:
模型训练模块,用于对所述强化学习模型进行训练,得到训练后的强化学习模型。
7.如权利要求6所述的装置,其特征在于,所述模型训练模块用于:
所述强化学习模型包括智能体和环境,所述智能体包括演员网络、评论家网络和环境;所述演员网络为基于价值的强化学习模型;所述评论家网络为基于策略的强化学习模型;
将虚拟机数量和所有子任务的状态输入到所述演员网络,输出动作,所述动作为虚拟机的调度路径;
所述动作输入到所述评论家网络,所述评论家网络对所述动作进行评价,得到价值,并将所述价值反馈给所述演员网络;
所述动作还输入到所述环境中,所述环境根据所述动作输出奖励,并反馈到所述智能体;
所述演员网络根据获取的所述价值,对自身进行更新,直至达到最大迭代次数,得到训练后的强化学习模型。
8.如权利要求7所述的装置,其特征在于,所述奖励为优化目标的倒数,优化目标T为:
其中,t为设计调度所需时间,Tmin为完成任务的最优处理时间,Tmax为完成任务的最差处理时间。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中煤科工西安研究院(集团)有限公司,未经中煤科工西安研究院(集团)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211708513.9/1.html,转载请声明来源钻瓜专利网。