[发明专利]一种基于数字孪生式训练的集群航迹规划强化学习方法有效

专利信息
申请号: 202111041443.1 申请日: 2021-09-07
公开(公告)号: CN113495578B 公开(公告)日: 2021-12-10
发明(设计)人: 雷磊;沈高青;蔡圣所;宋晓勤;张莉涓;朱晓浪 申请(专利权)人: 南京航空航天大学
主分类号: G05D1/10 分类号: G05D1/10
代理公司: 南京苏高专利商标事务所(普通合伙) 32204 代理人: 张婧
地址: 210016 江*** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 数字 孪生 训练 集群 航迹 规划 强化 学习方法
【权利要求书】:

1.一种基于数字孪生式训练的集群航迹规划强化学习方法,其特征在于,所采用的步骤是:

步骤1:构建无人机集群航迹规划问题的状态空间和动作空间,状态空间由三部分组成,包括目标位置状态信息,障碍物位置状态信息和邻居节点状态信息;动作空间为无人机的速度大小和方向;

构建无人机集群航迹规划问题的状态空间和动作空间的具体方法为:

无人机i在第t个时间步长内的观测信息由三部分组成,第一部分是目标位置状态信息,为了削弱模型对目标绝对位置的敏感性,采用了相对位置{G - ui,t}代替了目标的绝对位置,同理,在第二部分和第三部分的观测信息中也采用了这个方法;第二部分是障碍物位置状态信息,假设无人机感知范围内存在障碍物,则无人机i在第t个时间步长内的障碍物位置观测信息为{o1 - ui,t, o2 - ui,t, …, ok - ui,t};第三部分是邻居节点观测信息,无人机i在第t个时间步长内的邻居节点观测信息表示为{u1,t - ui,t, u2,t - ui,t, …, uj,t- ui,t},这里,表示无人机i的邻居节点集;综上,无人机i在第t个时间步长内的状态空间表示为si,t = {G - ui,t, o1 - ui,t, o2 - ui,t, …, ok - ui,t, u1,t - ui,t, u2,t -ui,t, …, uj,t - ui,t};

为了使无人机的飞行轨迹更加平滑,采用了连续动作空间,无人机i在第t个时间步长内动作空间表示为ai,t = {v, θ},其中v表示速度的大小,范围从vminvmaxθ表示速度的方向,该方向受无人机的最大转向角限制;

步骤2:设计无人机集群航迹规划问题深度强化学习方法的奖励函数,奖励函数包括五部分,分别为无人机接近目标奖励,无人机与障碍物之间的防碰撞奖励,无人机与邻居节点之间的协同奖励,无人机的运动奖励以及边界奖励,最终的奖励函数为上述五者的线性耦合;

设计无人机集群航迹规划问题深度强化学习方法的奖励函数的具体方法为:

(1)接近目标奖励:该奖励用于引导无人机朝向目标方向,其基本思想是,在一个时间步长内,朝向目标方向的移动距离尽可能大,因此,无人机i在第t个时间步长内接近目标的奖励定义为:

(1)

其中,ωappro是一个正常数;

(2)防碰撞奖励:此奖励用于引导无人机与障碍物和邻居保持安全距离,无人机i在第t个时间步长内与障碍物或邻居碰撞的奖励定义为:

(2)

这里,

(3)

(4)

其中,ωobsωnei表示正常数,d3表示无人机与障碍物之间的安全距离,d1表示为无人机与邻居之间的安全距离,表示障碍物集合;

(3)协同奖励:该奖励用于引导无人机与邻居保持连通性,以便在集群运动过程中建立更好的协同效果,无人机i在第t个时间步长内与邻居协同的奖励定义为:

(5)

其中,d2表示无人机的通信距离,ωconnec表示一个正常数;

(4)运动奖励:该奖励用于引导无人机用更少的时间完成集群航迹规划任务,无人机i在第t个时间步长内的运动奖励定义为:

(6)

其中ωstep表示一个正常数;

(5)边界奖励:该奖励用于引导无人机避免距离边界太近,无人机i在第t个时间步长内的边界奖励定义为:

(7)

其中ωhorωver为正常数,dhordver为无人机到水平和垂直边界的最小距离,当它们大于边长的0.05倍时,设置为零;

综上,无人机i在第t个时间步长内的整体奖励函数定义为:

(8)

步骤3:设计基于行为耦合的无人机集群航迹规划问题深度强化学习方法的网络架构,深度强化学习网络采用Actor-Critic网络架构,其中Actor网络分为4个子网络,分别是前进子网络,协同子网络,避障子网络和耦合子网络;

设计基于行为耦合的无人机集群航迹规划问题深度强化学习方法的网络架构的具体方法为:

BCDDPG使用Actor-Critic网络架构,其中,Actor网络直接输出预期动作, Critic网络近似动作值函数,用于评估Actor网络输出动作的质量;

BCDDPG的Actor网络由多个子网络组成,对于集群航迹规划问题而言,无人机的状态信息s可以分为以下三类:

(1)当前时间步长内目标的相对位置,表示为sf

(2)当前时间步长内其邻居节点的相对位置,表示为sc

(3)当前时间步长内的障碍物的相对位置,表示为so

BCDDPG使用三个不同的子Actor网络来处理三类状态信息,子Actor网络1、2和3分别采用sfscso作为输入,并输出对应的子动作afacao;同时,子Actor网络中采用了Long-Short Term Memory神经网络处理状态信息,以便更好的从历史状态信息中对下一时间步长邻居节点位置进行预测;子Actor网络4将状态s,子动作afacao联立组成一个新向量作为输入,并输出最终动作a

步骤4:搭建基于无人机集群数字孪生系统的集群航迹规划深度强化学习方法的仿真训练体系架构,无人机集群数字孪生系统包括孪生物理实体、孪生仿真模型、孪生决策模型和孪生连接通道,无人机集群航迹规划深度强化学习方法运行于孪生决策模型中,并利用孪生物理实体、孪生仿真模型和孪生连接通道,进行深度强化学习模型的训练和部署;

搭建基于无人机集群数字孪生系统的集群航迹规划深度强化学习方法的仿真训练体系架构的具体方法为:

(1)、搭建孪生物理实体:由低成本、小型无人机和任务环境组成的无人机集群系统称为孪生物理实体,无人机在计算和存储方面受到资源限制,无法高效率的完成DRL模型的训练,每架无人机配备多个传感器,能实时感知环境状态;

搭建孪生仿真模型:中央服务器利用从真实世界接收的数据,通过仿真和建模,建立无人机集群系统的高保真孪生仿真模型,中央服务器在每个时间步长用来自真实世界无人机传感器的感知数据实时更新孪生仿真模型,孪生仿真模型可获得全局状态信息,用于提高DRL算法的训练速度和有效性;

搭建孪生决策模型:DRL算法部署在孪生决策模型中,用于为集群航迹规划问题提供决策服务,孪生决策模型从孪生仿真模型中提取训练过程所需的状态信息,并利用中央服务器强大的计算性能,实时输出无人机集群航迹规划问题的控制策略,DRL算法在执行阶段可借助孪生仿真模型不断更新和改进,实现DRL算法的持续进化;

搭建孪生连接通道:孪生连接通道是连接物理域和信息域的桥梁,二者之间可以通过4G/5G、移动AP或卫星方式建立通信链路,孪生连接通道是双向的,一方面,孪生物理实体将传感器数据传输到中央服务器,用于孪生仿真模型构建,另一方面,中央服务器将DRL算法生成的控制策略输出到孪生物理实体,用于指导无人机集群运动,一旦DRL算法完成训练阶段,可借助孪生连接通道快速部署到现实世界的多无人机系统中,并以分布式方式执行;

(2)、借助于无人机集群数字孪生系统,无人机集群航迹规划深度强化学习方法采用“集中式训练,分布式执行,持续进化”的方式实现模型的快速训练和部署;

在训练阶段,孪生物理实体上的高精度传感器采集环境状态信息,通过孪生连接通道将数据传输至孪生仿真模型;孪生仿真模型根据采集到的环境状态信息更新自身状态,并提取集群航迹规划问题的状态数据发送至孪生决策模型进行模型训练;孪生决策模型借助中央服务器的计算资源完成深度强化学习网络模型的训练;

在执行阶段,孪生决策模型将训练完成的深度强化学习网络模型通过孪生连接通道发送至孪生物理实体上;孪生物理实体根据深度强化学习网络模型的决策结果分布式完成航迹规划任务;同时孪生决策模型继续根据孪生仿真模型中的状态数据进行深度强化学习网络模型的持续训练,并定期将更优的训练结果通过孪生连接通道更新至孪生物理实体上,实现深度强化学习方法的持续进化。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京航空航天大学,未经南京航空航天大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202111041443.1/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top