[发明专利]基于深度强化学习的多阶段装备发展规划方法及系统有效
申请号: | 202110616596.8 | 申请日: | 2021-06-02 |
公开(公告)号: | CN113296413B | 公开(公告)日: | 2022-06-14 |
发明(设计)人: | 刘鹏;李际超;夏博远;杨克巍;姜江;葛冰峰;杨志伟 | 申请(专利权)人: | 中国人民解放军国防科技大学 |
主分类号: | G05B13/04 | 分类号: | G05B13/04 |
代理公司: | 北京风雅颂专利代理有限公司 11403 | 代理人: | 曾志鹏 |
地址: | 410003 湖*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 深度 强化 学习 阶段 装备 发展规划 方法 系统 | ||
1.一种基于深度强化学习的多阶段装备发展规划方法,其特征在于,包括:
构建多阶段装备发展规划模型,所述多阶段装备发展规划模型用于评估装备发展方案在面向不确定条件的能力评价值;其中,所述不确定条件包括每阶段投资预算和最终能力需求;
根据所述多阶段装备发展规划模型中的所述不确定条件构建对应的强化学习框架;
基于DQN思想和强化学习框架,构建多阶段装备发展规划优化算法;
基于所述多阶段装备发展规划优化算法,生成最优的多阶段装备发展方案;
其中,所述构建多阶段装备发展规划模型,包括:
根据每阶段投资预算判断装备发展方案是否为有效方案;
在所述装备发展方案为有效方案时,确定所述装备发展方案中所有待发展装备的已发展年份;
根据所述待发展装备的投资状态、所述已发展年份和预计发展年限确定待发展装备的发展状态;
根据待发展装备的发展状态和预期能力,获取多阶段结束后投资装备组合的实际能力;
根据最终能力需求和所述实际能力获取所述投资装备组合的体系贡献率,并将其标记为装备发展的能力评价值;
以所述装备发展方案、所述每阶段投资预算和所述最终能力需求为输入参数,并以所述能力评价值为输出参数构建多阶段装备发展规划模型;
其中,所述多阶段装备发展规划模型表示为:
max Q=f(X,B,Rβ),
where:
X=[xij]m×t,xij∈{0,1};
B=[bi]1×t;
Rβ=[rβi]1×n,rβi∈[1,9];
其中,X=[xij]m×t为所述装备发展方案,m为待发展装备总量,t为阶段数量,xij为第j个阶段是否投资第i个待发展装备wi,若xij=1,则投资,若xij=0,则不投资;B=[bi]1×t为所述每阶段投资预算,bi为第i个阶段的投资预算;Rβ=[rβi]1×n为最终能力需求,n为关心能力数量,rβi为第i项能力ai的最终能力需求,为每阶段的投资装备组合成本;ei为第i个待发展装备wi的成本;lαi为第i个待发展装备wi的预计发展年限。
2.根据权利要求1所述的基于深度强化学习的多阶段装备发展规划方法,其特征在于,所述待发展装备的发展状态包括未发展状态、发展中状态和发展成功状态;
所述根据所述待发展装备的投资状态、所述已发展年份和预计发展年限确定待发展装备的发展状态,包括:
判断所述待发展装备的是否已投资;
若未投资,则确定所述待发展装备处于未发展状态;
若已投资,则判断所述待发展装备的已发展年份是否大于等于预计发展年份;
若所述待发展装备的已发展年份小于预计发展年份,则所述待发展装备处于发展中状态;
若所述待发展装备的已发展年份大于等于预计发展年份,则所述待发展装备处于发展成功状态。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民解放军国防科技大学,未经中国人民解放军国防科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110616596.8/1.html,转载请声明来源钻瓜专利网。