[发明专利]一种基于数字孪生式训练的集群航迹规划强化学习方法有效
申请号: | 202111041443.1 | 申请日: | 2021-09-07 |
公开(公告)号: | CN113495578B | 公开(公告)日: | 2021-12-10 |
发明(设计)人: | 雷磊;沈高青;蔡圣所;宋晓勤;张莉涓;朱晓浪 | 申请(专利权)人: | 南京航空航天大学 |
主分类号: | G05D1/10 | 分类号: | G05D1/10 |
代理公司: | 南京苏高专利商标事务所(普通合伙) 32204 | 代理人: | 张婧 |
地址: | 210016 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 数字 孪生 训练 集群 航迹 规划 强化 学习方法 | ||
1.一种基于数字孪生式训练的集群航迹规划强化学习方法,其特征在于,所采用的步骤是:
步骤1:构建无人机集群航迹规划问题的状态空间和动作空间,状态空间由三部分组成,包括目标位置状态信息,障碍物位置状态信息和邻居节点状态信息;动作空间为无人机的速度大小和方向;
构建无人机集群航迹规划问题的状态空间和动作空间的具体方法为:
无人机
为了使无人机的飞行轨迹更加平滑,采用了连续动作空间,无人机
步骤2:设计无人机集群航迹规划问题深度强化学习方法的奖励函数,奖励函数包括五部分,分别为无人机接近目标奖励,无人机与障碍物之间的防碰撞奖励,无人机与邻居节点之间的协同奖励,无人机的运动奖励以及边界奖励,最终的奖励函数为上述五者的线性耦合;
设计无人机集群航迹规划问题深度强化学习方法的奖励函数的具体方法为:
(1)接近目标奖励:该奖励用于引导无人机朝向目标方向,其基本思想是,在一个时间步长内,朝向目标方向的移动距离尽可能大,因此,无人机
(1)
其中,
(2)防碰撞奖励:此奖励用于引导无人机与障碍物和邻居保持安全距离,无人机
(2)
这里,
(3)
(4)
其中,
(3)协同奖励:该奖励用于引导无人机与邻居保持连通性,以便在集群运动过程中建立更好的协同效果,无人机
(5)
其中,
(4)运动奖励:该奖励用于引导无人机用更少的时间完成集群航迹规划任务,无人机
(6)
其中
(5)边界奖励:该奖励用于引导无人机避免距离边界太近,无人机
(7)
其中
综上,无人机
(8)
步骤3:设计基于行为耦合的无人机集群航迹规划问题深度强化学习方法的网络架构,深度强化学习网络采用Actor-Critic网络架构,其中Actor网络分为4个子网络,分别是前进子网络,协同子网络,避障子网络和耦合子网络;
设计基于行为耦合的无人机集群航迹规划问题深度强化学习方法的网络架构的具体方法为:
BCDDPG使用Actor-Critic网络架构,其中,Actor网络直接输出预期动作, Critic网络近似动作值函数,用于评估Actor网络输出动作的质量;
BCDDPG的Actor网络由多个子网络组成,对于集群航迹规划问题而言,无人机的状态信息
(1)当前时间步长内目标的相对位置,表示为
(2)当前时间步长内其邻居节点的相对位置,表示为
(3)当前时间步长内的障碍物的相对位置,表示为
BCDDPG使用三个不同的子Actor网络来处理三类状态信息,子Actor网络1、2和3分别采用
步骤4:搭建基于无人机集群数字孪生系统的集群航迹规划深度强化学习方法的仿真训练体系架构,无人机集群数字孪生系统包括孪生物理实体、孪生仿真模型、孪生决策模型和孪生连接通道,无人机集群航迹规划深度强化学习方法运行于孪生决策模型中,并利用孪生物理实体、孪生仿真模型和孪生连接通道,进行深度强化学习模型的训练和部署;
搭建基于无人机集群数字孪生系统的集群航迹规划深度强化学习方法的仿真训练体系架构的具体方法为:
(1)、搭建孪生物理实体:由低成本、小型无人机和任务环境组成的无人机集群系统称为孪生物理实体,无人机在计算和存储方面受到资源限制,无法高效率的完成DRL模型的训练,每架无人机配备多个传感器,能实时感知环境状态;
搭建孪生仿真模型:中央服务器利用从真实世界接收的数据,通过仿真和建模,建立无人机集群系统的高保真孪生仿真模型,中央服务器在每个时间步长用来自真实世界无人机传感器的感知数据实时更新孪生仿真模型,孪生仿真模型可获得全局状态信息,用于提高DRL算法的训练速度和有效性;
搭建孪生决策模型:DRL算法部署在孪生决策模型中,用于为集群航迹规划问题提供决策服务,孪生决策模型从孪生仿真模型中提取训练过程所需的状态信息,并利用中央服务器强大的计算性能,实时输出无人机集群航迹规划问题的控制策略,DRL算法在执行阶段可借助孪生仿真模型不断更新和改进,实现DRL算法的持续进化;
搭建孪生连接通道:孪生连接通道是连接物理域和信息域的桥梁,二者之间可以通过4G/5G、移动AP或卫星方式建立通信链路,孪生连接通道是双向的,一方面,孪生物理实体将传感器数据传输到中央服务器,用于孪生仿真模型构建,另一方面,中央服务器将DRL算法生成的控制策略输出到孪生物理实体,用于指导无人机集群运动,一旦DRL算法完成训练阶段,可借助孪生连接通道快速部署到现实世界的多无人机系统中,并以分布式方式执行;
(2)、借助于无人机集群数字孪生系统,无人机集群航迹规划深度强化学习方法采用“集中式训练,分布式执行,持续进化”的方式实现模型的快速训练和部署;
在训练阶段,孪生物理实体上的高精度传感器采集环境状态信息,通过孪生连接通道将数据传输至孪生仿真模型;孪生仿真模型根据采集到的环境状态信息更新自身状态,并提取集群航迹规划问题的状态数据发送至孪生决策模型进行模型训练;孪生决策模型借助中央服务器的计算资源完成深度强化学习网络模型的训练;
在执行阶段,孪生决策模型将训练完成的深度强化学习网络模型通过孪生连接通道发送至孪生物理实体上;孪生物理实体根据深度强化学习网络模型的决策结果分布式完成航迹规划任务;同时孪生决策模型继续根据孪生仿真模型中的状态数据进行深度强化学习网络模型的持续训练,并定期将更优的训练结果通过孪生连接通道更新至孪生物理实体上,实现深度强化学习方法的持续进化。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京航空航天大学,未经南京航空航天大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111041443.1/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种钢结构桁架
- 下一篇:图像处理方法、装置、计算机设备及存储介质