[发明专利]基于多智能体强化学习的目标探测与分配方法及装置在审

申请号：	202010959038.7	申请日：	2020-09-14
公开（公告）号：	CN112131786A	公开（公告）日：	2020-12-25
发明（设计）人：	伊山;魏晓龙;鹿涛;黄谦;齐智敏;蔡春晓;赵昊;张帅;亢原平	申请（专利权）人：	中国人民解放军军事科学院评估论证研究中心;航天科工系统仿真科技(北京)有限公司
主分类号：	G06F30/27	分类号：	G06F30/27;G06F119/14
代理公司：	北京细软智谷知识产权代理有限责任公司 11471	代理人：	谭承世
地址：	100089 ***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于智能强化学习目标探测分配方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于多智能体强化学习的目标探测与分配方法，其特征在于，包括：

构建作战行为模型和强化学习训练环境；

采用强化学习训练环境对所述作战行为模型进行训练至模型收敛，获取人工智能行为模型；

采用作战仿真引擎对所述人工智能行为模型进行训练，输出优化模型。

2.根据权利要求1所述的方法，其特征在于，构建强化学习训练环境，包括：

采用MADDPG算法将作战仿真引擎与强化学习训练环境进行映射。

3.根据权利要求2所述的方法，其特征在于，所述采用MADDPG算法将作战仿真引擎与强化学习训练环境进行映射，包括：

将所述作战仿真引擎中的作战行为模型映射为所述强化学习训练环境中的多个智能体，所述智能体作为训练的对象；

将所述作战仿真引擎中的感知模型映射为所述强化学习训练环境中的感知代理模块，用于获取当前战场态势；

将所述作战仿真引擎中的决策模型映射为所述强化学习训练环境中的决策代理模块，用于根据当前战场态势选择要执行的行动；

将所述作战仿真引擎中的行动模型映射为所述强化学习训练环境中的行动代理模块，用于执行选择的行动；

将所述作战仿真引擎中的记忆模型映射为所述强化学习训练环境中的记忆代理模块，用于存储战场态势。

4.根据权利要求3所述的方法，其特征在于，所述采用强化学习训练环境对所述作战行为模型进行训练至模型收敛，获取人工智能行为模型，包括：

初始化智能体；

所述感知代理模块获取环境信息，确定当前战场态势并存储至记忆代理模块；

所述决策代理模块根据所述当前战场态势选择要执行的行动；

所述行动代理模块执行选择的行动；

所述强化学习训练环境根据行动的结果将战场环境反馈至所述智能体进行优化；

判断所述智能体是否收敛，并在所述智能体收敛后输出人工智能行为模型。

5.根据权利要求4所述的方法，其特征在于，所述采用作战仿真引擎对所述人工智能行为模型进行训练，输出优化模型，包括：

初始化人工智能行为模型；

所述感知模型获取环境信息，确定当前战场态势并存储至记忆模型；

所述决策模型根据所述当前战场态势选择要执行的行动；

所述行动模型执行选择的行动；

所述作战方针引擎根据行动的结果将战场环境反馈至所述人工智能行为模型进行优化；

判断所述人工智能行为模型是否收敛，并在所述智能体收敛后输出优化模型。

6.根据权利要求4或5所述的方法，其特征在于，在判断是否收敛之前，还包括：

判断是否到达预设的训练结束时间；

如果到达训练结束时间则结束并退出，否则继续训练。

7.根据权利要求1所述的方法，其特征在于，

所述强化学习训练环境利用MADDPG算法分布式运行集中式训练所述作战行为模型。

8.根据权利要求3所述的方法，其特征在于，

所述智能体为3个。

9.根据权利要求1所述的方法，其特征在于，

所述作战行为模型采用多智能体人工神经网络。

10.一种基于多智能体强化学习的目标探测与分配装置，其特征在于，包括：

构建模块，用于构建作战行为模型和强化学习训练环境；

获取模块，用于采用强化学习训练环境对所述作战行为模型进行训练至模型收敛，获取人工智能行为模型；

输出模块，用于采用作战仿真引擎对所述人工智能行为模型进行训练，输出优化模型。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于中国人民解放军军事科学院评估论证研究中心;航天科工系统仿真科技(北京)有限公司，未经中国人民解放军军事科学院评估论证研究中心;航天科工系统仿真科技(北京)有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202010959038.7/1.html，转载请声明来源钻瓜专利网。

上一篇：一种钻头规上油辅助设备
下一篇：一种可调节目标测温区域的测温设备及方法

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于多智能体强化学习的目标探测与分配方法及装置在审

专利文献下载