[发明专利]基于多智能体强化学习的目标探测与分配方法及装置在审

申请号：	202010959038.7	申请日：	2020-09-14
公开（公告）号：	CN112131786A	公开（公告）日：	2020-12-25
发明（设计）人：	伊山;魏晓龙;鹿涛;黄谦;齐智敏;蔡春晓;赵昊;张帅;亢原平	申请（专利权）人：	中国人民解放军军事科学院评估论证研究中心;航天科工系统仿真科技(北京)有限公司
主分类号：	G06F30/27	分类号：	G06F30/27;G06F119/14
代理公司：	北京细软智谷知识产权代理有限责任公司 11471	代理人：	谭承世
地址：	100089 ***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于智能强化学习目标探测分配方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明涉及一种基于多智能体强化学习的目标探测与分配方法及装置，包括构建作战行为模型和强化学习训练环境；采用强化学习训练环境对所述作战行为模型进行训练至模型收敛，获取人工智能行为模型；采用作战仿真引擎对所述人工智能行为模型进行训练，输出优化模型。本发明将强化学习算法MADDPG集成到兵棋推演系统中，构建从简单到复杂的仿真环境，优化强化学习收敛速度，有效的解决了兵棋推演系统中智能体优化收敛速度的问题。

技术领域

本发明属于模拟仿真技术领域，具体涉及一种基于多智能体强化学习的目标探测与分配方法及装置。

背景技术

随着人工智能的发展，依靠人力研究战术和制定军事计划的时代正在逐步离我们远去。过去在计算机应用于兵棋推演仿真过程中，人们依靠微分方程、战争理论，有效地模拟了战争的进程，极大提高了军队的作战水平。如今，人工智能在兵棋推演的应用将会扮演更加重要的角色。而基于多智能体建模在描述复杂系统的能力，以及对动态环境中的行为建模能力，相对于传统的建模方法更具有优越性。多智能体系统的出现为兵棋推演系统的进一步扩展提供了一个新的平台。

在兵棋仿真推演过程中，有经验的指挥员可以根据敌方的状态、作战能力、交战规则等信息对其执行的作战任务进行判断和预测。随着兵棋系统的不断发展与改进，其模拟的作战任务正面临许多新的变化：首先，作战单元数量剧增，指挥员逐一分析并确定各目标作战任务工作量十分繁重，以致难以全面准确地把握战场态势；其次，信息技术的不断发展使战场态势演变速度不断加快，单纯依靠人工识别敌方空中任务将严重影响我方响应时间，降低作战效率；最后，海量战场数据往往是不完整、不及时和不准确的，甚至带有欺骗性，指挥员难以分析其中隐藏的关键态势。这一系列深刻的变化为空中任务识别增加了难度，传统依靠人工识别的方法已经难以适应高度复杂和快速变换的战场态势，因此，研究智能的作战任务识别方法，将指挥员从多源、复杂、异构的战场数据中解放出来，将更多的精力投入到指挥决策上来，是未来智能兵棋系统发展的一大趋势。

随着多智能体强化学习的不断发展，强化学习具有自主学习、分布协调和组织的能力，通过与其他智能体的协作配合规划自己的行为，改变自己的状态信息，最终高效地完成目标。多智能体系统不仅能完全代替单智能体完成目标，而且完成的效率也可以超过单智能体，也就体现出人多力量大的现象。让多智能体能像人一样组队合作完成目标是一项新课题。深度强化学习使用异步框架来训练多智能体，每个智能体相对于其他智能体都是独立的，如果出现各个智能体分工不一样的情况，异步框架就不适用了。一些多智能体算法中智能体的交互是全连接，这样不仅增加算法复杂度更难应用到现实中，导致兵棋推演系统中作战行为模型优化收敛速度慢。

发明内容

有鉴于此，本发明的目的在于克服现有技术的不足，提供一种基于多智能体强化学习的目标探测与分配方法及装置，以解决现有技术中兵棋推演系统中作战行为模型优化收敛速度慢的问题。

为实现以上目的，本发明采用如下技术方案：一种基于多智能体强化学习的目标探测与分配方法，包括：

构建作战行为模型和强化学习训练环境；

采用强化学习训练环境对所述作战行为模型进行训练至模型收敛，获取人工智能行为模型；

采用作战仿真引擎对所述人工智能行为模型进行训练，输出优化模型。

进一步的，构建强化学习训练环境，包括：

采用MADDPG算法将作战仿真引擎与强化学习训练环境进行映射。

进一步的，所述采用MADDPG算法将作战仿真引擎与强化学习训练环境进行映射，包括：

将所述作战仿真引擎中的作战行为模型映射为所述强化学习训练环境中的多个智能体，所述智能体作为训练的对象；

将所述作战仿真引擎中的感知模型映射为所述强化学习训练环境中的感知代理模块，用于获取当前战场态势；

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于中国人民解放军军事科学院评估论证研究中心;航天科工系统仿真科技(北京)有限公司，未经中国人民解放军军事科学院评估论证研究中心;航天科工系统仿真科技(北京)有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202010959038.7/2.html，转载请声明来源钻瓜专利网。

上一篇：一种钻头规上油辅助设备
下一篇：一种可调节目标测温区域的测温设备及方法

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于多智能体强化学习的目标探测与分配方法及装置在审

专利文献下载