[发明专利]一种深度强化学习模型无人机部署试验方法和系统在审
申请号: | 202010575692.8 | 申请日: | 2020-06-22 |
公开(公告)号: | CN111783224A | 公开(公告)日: | 2020-10-16 |
发明(设计)人: | 王之元;沈天龙 | 申请(专利权)人: | 中国人民解放军军事科学院国防科技创新研究院 |
主分类号: | G06F30/15 | 分类号: | G06F30/15;G06F30/18;G06F30/27;G06F111/02 |
代理公司: | 北京路浩知识产权代理有限公司 11002 | 代理人: | 苗青盛 |
地址: | 100071 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 深度 强化 学习 模型 无人机 部署 试验 方法 系统 | ||
1.一种深度强化学习算法模型无人机部署试验方法,其特征在于,包括:
接收无人机发送的状态信息;
将所述无人机的状态信息按照预设的试验算法模型进行处理,获取决策行动信息,发送所述决策行动信息给所述无人机。
2.根据权利要求1所述的方法,其特征在于,所述接收无人机发送的状态信息具体包括:
通过地面站接收无人机发送的状态信息;
所述发送所述决策行动信息给所述无人机具体包括:
发送所述决策行动信息给所述地面站,所述地面站将所述决策行动信息发送给所述无人机。
3.根据权利要求2所述的方法,其特征在于,所述预设的试验算法模型具体为:
根据无人机的试验内容预先在仿真器中设定好仿真场景,根据试验内容通过在仿真器中进行仿真试验对算法模型进行不断调试与优化,得到的最优试验算法模型。
4.根据权利要求3所述的方法,其特征在于,所述根据无人机的试验内容预先在仿真器中设定好仿真场景具体包括:
根据无人机的试验内容具体设定多智能体算法、仿真器的交互接口和训练中的回报值;其中,所述多智能体算法为Maddpg多智能体强化学习算法,算法模型为多层全连接网络。
5.一种深度强化学习算法模型无人机部署试验方法,其特征在于,包括:
发送无人机的状态信息给算法模型计算平台;
根据所述算法模型计算平台发送的决策行动信息,以控制所述无人机。
6.一种深度强化学习算法模型无人机部署试验系统,其特征在于,包括:
不少于一台无人机,所述无人机包括无人机任务板,所述无人机任务板用于发送所述无人机的状态信息给算法模型计算平台以及根据决策行动信息控制所述无人机;
地面站,所述地面站用于实现所述无人机与所述算法模型计算平台之间的通信;
算法模型计算平台,所述算法模型计算平台用于将从所述无人机任务板处获取的所述无人机的状态信息按照预设的试验算法模型进行处理获取决策行动信息,并发送所述决策行动信息回所述无人机任务板。
7.根据权利要求6所述的系统,其特征在于,所述无人机任务板具体包括:
信息采集模块,用于接收传感器发送的所述无人机的状态信息并发送给RPC服务端;
控制模块,用于根据所述决策行动信息控制所述无人机;
RPC服务端,用于接收所述信息采集模块发送的状态信息并发送给所述算法模型计算平台和接收所述算法模型计算平台发送的决策行动信息并发送给所述控制模块。
8.根据权利要求7所述的系统,其特征在于,所述算法模型计算平台具体包括:
算法模型运行环境,用于为所述试验算法模型提供支持算法模型前向推理计算的通用框架;
算法模型执行模块,用于接收所述无人机的状态信息,并按照预设的试验算法模型进行处理获取决策行动信息,并将所述决策行动信息发送给RPC客户端;
RPC客户端,用于获取所述RPC服务端发送的所述无人机的状态信息,并将所述无人机的状态信息发送给所述算法模型执行模块;和接收所述算法模型执行模块发送的决策行动信息,并将所述决策行动信息发送给所述RPC服务端。
9.根据权利要求8所述的系统,其特征在于,所述状态信息具体包括:
所述无人机的差分GPRS信息。
10.根据权利要求9所述的系统,其特征在于,所述预设的试验算法模型具体包括:
根据无人机的试验内容预先在仿真器中设定好仿真场景,根据试验内容通过在仿真器中进行仿真试验对算法模型进行不断调试与优化,得到的最优试验算法模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民解放军军事科学院国防科技创新研究院,未经中国人民解放军军事科学院国防科技创新研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010575692.8/1.html,转载请声明来源钻瓜专利网。