[发明专利]一种基于迁移学习的装备车辆路径规划方法有效

申请号：	201910327893.3	申请日：	2019-04-23
公开（公告）号：	CN110631596B	公开（公告）日：	2020-06-02
发明（设计）人：	张昊;孙玉洁;张勇;张聪姗	申请（专利权）人：	太原理工大学
主分类号：	G01C21/34	分类号：	G01C21/34
代理公司：	太原晋科知识产权代理事务所(特殊普通合伙) 14110	代理人：	任林芳
地址：	030024 ***	国省代码：	山西;14
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于迁移学习装备车辆路径规划方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于迁移学习的装备车辆路径规划方法，其特征在于：包括以下步骤，

S1～获取装备车辆的基础数据，包括装备车辆的长、宽、高以及承重基础参数；

S2～获取规划时间及规划目标；战中行军设置有最晚到达时间，通过不同的规划目标，包括地表距离最短、时间最短、风险最小以及油耗最少，逆推通过各关键点的时间点及可休息时间，进而计算装备车辆的最晚出发时间；

S3～获取静态规划环境数据，包括影响装备车辆行驶的地表数据、地形数据以及气象数据；

S4～获取装备车辆行驶数据，基于已获取的地表地形数据以及特定气象数据，获取相应装备车辆的行驶数据，包括载重行驶速度、转弯半径、越障高度以及爬坡能力，为路径规划的每一路段的代价距离计算做数据准备；

S5～利用DDPG算法构建路径规划模型，通过装备车辆基础数据、规划时间及规划目标、静态规划环境数据、装备车辆行驶数据建立路径规划代价函数，利用深度神经网络的预训练得到代价函数中各约束条件的参数；

S6～构建静态规划环境域，环境域即实地的栅格地图；

S7～获取动态规划环境的参数变化数据；通过战场情报相关传感器将地形、气象、路况检测数据回传指挥控制系统，实时检测地形参数q_地，气象条件参数q_气，敌火力干扰下安全通行参数q_敌，第i个路段的风险参数R_i，路况参数q_路况，路段载重参数q_载重的变化；

S8～构建动态规划环境域；在静态规划环境域的基础上，通过步骤S7中获取的动态规划环境的变化数据进行实时修改，从而构建动态规划环境域；

S9～微调深度神经网络的参数，遍历深度神经网络，确定发生变化的数据相应的参数，通过人在回路的方式微调网络参数，为辅助指挥员网络调参，各参数依据相应数据变化范围迭代递增或递减；

S10～将训练好的网络参数：地形参数q_地，气象条件参数q_气，装备车辆破障能力参数q_破，敌火力干扰下安全通行参数q_敌，第i个路段的风险参数R_i，路况参数q_路况，路段载重参数q_载重作为路径规划算法的输入，动态调用DDPG规划算法，通过实时获取战中的地形、情报数据，不停调整规划策略，生成装备车辆的路径规划结果；

S11～通过不同战中动态规划环境可得到不同战场环境的路径规划结果，将路径规划结果及其对应的网络训练参数作为历史样本，作为静态规划环境下网络训练的测试数据，提高战场环境下路径规划的规划速度。

2.根据权利要求1所述的基于迁移学习的装备车辆路径规划方法，其特征在于：所述的步骤S2中装备车辆的最晚出发时间计算方法如下，

其中，T_start表示装备车辆的最晚出发时间，T_arrival表示装备车辆的最晚到达时间，T_relax表示n个关键点中各关键点的休息时间，S_m表示第m段道路的代价距离，V_m表示第m段道路上装备车辆的平均行驶速度。

3.根据权利要求2所述的基于迁移学习的装备车辆路径规划方法，其特征在于：所述的步骤S5采取以下方法，

不同规划目标的代价函数goal（D_min，T_min，R_min，U_min）建立如下：

a)地表距离最短目标：

计算公式：D_min= min()_所有路径，其中：D_i，i+1，n1，为某路径上的第i个节点到第i+1个节点间的距离，n为路径上的节点个数；

b)时间最短目标：

计算公式：T_min= min()_所有路径；

式中，V_i = v_标×q_地×q_气×q_破×q_敌，0≤q_地≤1, 0≤q_气≤1, 0≤q_破≤1, 0≤q_敌≤1；

其中：D_i，i+1，n1，为某路径上的第i个节点到第i+1个节点间的距离，n为路径上的节点个数，V_i为第i个路段的平均机动速度；v_标为在理想标准条件下的机动速度，q_地为地形修正系数，q_气为气象条件修正系数，q_破为机动部队破障能力修正系数，q_敌为敌火力干扰下安全程度修正系数；

c) 风险最小目标：

计算公式：R_min= min(×R_i)_所有路径；

其中：D_i，i+1，n1，为某路径上的第i个节点到第i+1个节点间的距离，n为路径上的节点个数，R_i为第i个路段的风险系数；

d)油耗最少目标：

计算公式：U_min= min(×U_i)_所有路径；

U_i = u_标×q_地×q_气×q_路况×q_载重，0≤q_地≤1,0≤q_气≤1,0≤q_路况≤1,0≤q_载重≤1；

其中：u_标为理想标准条件下的每公里耗油量，q_路况为路况修正系数，q_地为地形修正系数，q_气为气象条件修正系数，q_载重为路段载重修正系数；

深度神经网络预训练的参数为地形参数q_地，气象条件参数q_气，装备车辆破障能力参数q_破，敌火力干扰下安全通行参数q_敌，第i个路段的风险参数R_i，路况参数q_路况，路段载重参数q_载重；

DDPG算法中，

确定性行为策略u：定义为一个车辆行驶策略函数，上坡upx、下坡downx、左转lx、右转rx、直行gd、倒车rd，每一步的策略可通过a_t=u（s_t）计算获得，s_t是t时刻关于地形参数q_地，气象条件参数q_气，敌火力干扰下安全通行参数q_敌，第i个路段的风险参数R_i，路况参数q_路况，路段载重参数q_载重的函数；

策略函数：策略网络即使用卷积神经网络对策略函数进行模拟，参数为t时刻的地形参数q_地，气象条件参数q_气，敌火力干扰下安全通行参数q_敌，第i个路段的风险参数R_i，路况参数q_路况，路段载重参数q_载重，上坡upx、下坡downx、左转lx、右转rx、直行gd、倒车rd；

Q函数：Q网络即使用卷积神经网络对Q函数进行模拟，参数为t时刻的地形参数q_地，气象条件参数q_气，敌火力干扰下安全通行参数q_敌，第i个路段的风险参数R_i，路况参数q_路况，路段载重参数q_载重；

训练的目标：最小化目标代价函数，即最小化Q网络的loss；

基于此，DDPG分别为策略网络、Q网络各创建两个神经网络拷贝，online网络和target网络，在基于一个静态战场环境域下训练策略网络、Q网络中online网络参数，再通过战场情报软件传回的参数更新策略网络、Q网络中target网络的参数， target网络参数变化小，用于训练过程中计算online网络的梯度变化；

具体训练流程如下：

1）初始化Actor\critic的online网络参数，包括地形参数q_地，气象条件参数q_气，敌火力干扰下安全通行参数q_敌，第i个路段的风险参数R_i，路况参数q_路况，路段载重参数q_载重，上坡upx、下坡downx、左转lx、右转rx、直行gd、倒车rd；

2）将online网络的参数拷贝给对应的target网络参数；

3）初始化一个记忆缓存数据集Xs_t；

4）针对每一个状态时刻t：

5）装备车辆在s_t状态下根据online策略u选择一种策略a_t；

6）根据装备车辆选择的策略a_t返回相应的目标代价值goal及装备车辆新的状态s_t+1；

7）装备车辆将此状态s_t，a_t，goal_t，s_t+1存入记忆缓存数据集Xs_t中，作为训练online网络的数据集；

8）从记忆缓存数据集Xs_t中随机采样N个迁移数据作为online策略网络、onlineQ网络的一组训练数据，其中s_i，a_i，goal_i，s_i+1是一组训练数据中的单个迁移数据；

9）计算Q网络t时刻的目标代价函数goal_t及其标签Ys_t；

10）根据战场情报软件获取的参数变化更新网络参数。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。