[发明专利]一种基于深度强化学习的武器目标智能分配方法在审
申请号: | 202111178278.4 | 申请日: | 2021-10-09 |
公开(公告)号: | CN114049242A | 公开(公告)日: | 2022-02-15 |
发明(设计)人: | 王才红;江光德;高军强;董茜;吕乃冰;曹扬;李冬雪;赵思聪;彭渊 | 申请(专利权)人: | 中国人民解放军96901部队26分队 |
主分类号: | G06Q50/26 | 分类号: | G06Q50/26;G06Q10/06;G06N3/04;G06N3/08 |
代理公司: | 中国和平利用军工技术协会专利中心 11215 | 代理人: | 刘光德 |
地址: | 100094 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 深度 强化 学习 武器 目标 智能 分配 方法 | ||
针对传统武器目标分配算法建模困难、搜索效率低等问题,本发明提出一种基于深度强化学习的武器目标智能分配方法,通过训练得到具有较强决策能力的武器目标智能分配模型。本发明首先针对武器目标分配问题设计了武器目标分配问题的规划求解环境,然后使用SAC算法进行实现,同时在神经网络上使用了全连接网络、卷积网络和GRU网络等神经网络,提升了模型的效果。本发明无论在学习能力、适应性和计算效率都要比传统算法更加优秀。
技术领域
本发明涉及作战任务决策领域,尤其是涉及一种武器目标分配智能分配方法。
背景技术
武器目标分配亦称“武器-目标分配”,是指在作战指挥中为目标明确打击武器的一项决策活动,根据给定的目标和毁伤要求清单,依托平时预先为每个目标所规划的对应不同毁伤要求的多套打击方案,基于打击方案所明确的使用武器类型、数量及可达到的毁伤效果,在满足可用武器资源的条件下,通过为每个目标选择打击方案的方式确定武器目标分配关系,使总体投入武器资源最省或可达到毁伤效果的期望值极大。
武器目标分配作为任务规划系统的关键组成要素,其核心和基础是解决好武器与目标间的适应性匹配问题,以提高武器打击目标的可行性与毁伤效能。当前伴随着新军事理论的提出,现代作战不仅重视作战的输赢,同时还要保证以最少的物资消耗、人员伤亡在最短时间内获得胜利。作战时,要求能够快速制定作战方案,完成作战任务并达成作战效益的最大化。然而,针对有限的武器资源,如何将资源有效合理的分配给每个任务,给作战人员带来了一定的困扰。因此,有效合理的分配武器资源成为制定作战方案的难点,也成为作战研究的重点之一,是各级指挥机构进行作战筹划时首要解决的关键问题之一,对于武器作战效能的发挥具有重要意义。
本发明涉及军事运筹和智能规划双重技术领域,具体是一种基于深度强化学习的武器目标智能分配方法。
以往对于武器目标分配问题的求解方法,主要包括传统算法和随机搜索算法两大类。其中,传统算法主要包括整数规划、动态规划、匈牙利算法或搜索论等,这些算法在单种武器打击多目标的武器目标分配方面取得较好的运用效果,但是对于多种武器打击多目标的武器目标分配问题,则存在建模困难、搜索效率低等困境,且很容易出现“维数灾难”导致求解失败。随机搜索算法主要包括粒子群、遗传算法、差分进化算法、鲸鱼算法、人工鱼群算法,这些算法因其计算过程随机性大,算法收敛速度和计算结果均不可控,无法满足实际应用需求。
随着可用武器和打击目标种类、数量的不断增加,以及作战决策时效性要求的不断提高,传统的武器目标分配规划作业方式因其存在的自动化程度低、应变能力差等缺点,已无法适应现代高技术战争需要。
近年来,以深度强化学习为代表的人工智能技术在围棋、德州扑克以及即时战略游戏如星际争霸II、刀塔等中取得了瞩目成就,在实际应用中有巨大的应用潜力。这种方法中智能体和环境在交互过程中生成的样本进行训练,在不断交互的自学习方式中进行算法模型的强化,所以不需要样本集也不受样本集的束缚,在无样本的情况仍然能够解决实际问题,同时解决了有限样本情况下算法模型延展性限制问题,可为武器目标分配问题的高效求解提供新的突破口。
发明内容
本发明提出一种基于深度强化学习的武器目标智能分配方法,以解决传统的武器目标分配规划作业方式因其存在的自动化程度低、应变能力差等技术问题。为解决上述技术问题,本发明通过设计武器目标分配深度强化学习求解环境的状态、动作和奖励,建立由基于CONV/FC/GRU混合架构的武器目标分配决策动作网络和武器目标分配决策价值网络构成的武器目标分配深度强化学习网络模型,搭建武器目标智能分配算法的前台应用与后台训练一体化综合运用环境,完成武器目标分配深度强化学习网络训练与优化,实现了武器目标分配问题的快速、高效求解,并在应用场景发生改变时,提供武器目标智能分配算法的自学习和在线升级能力。
附图说明
图1为本发明基于深度强化学习的武器目标智能分配方法的总体流程图;
图2为武器目标分配环境逻辑处理的流程图;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民解放军96901部队26分队,未经中国人民解放军96901部队26分队许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111178278.4/2.html,转载请声明来源钻瓜专利网。