[发明专利]一种基于迁移学习的装备车辆路径规划方法有效
申请号: | 201910327893.3 | 申请日: | 2019-04-23 |
公开(公告)号: | CN110631596B | 公开(公告)日: | 2020-06-02 |
发明(设计)人: | 张昊;孙玉洁;张勇;张聪姗 | 申请(专利权)人: | 太原理工大学 |
主分类号: | G01C21/34 | 分类号: | G01C21/34 |
代理公司: | 太原晋科知识产权代理事务所(特殊普通合伙) 14110 | 代理人: | 任林芳 |
地址: | 030024 *** | 国省代码: | 山西;14 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 迁移 学习 装备 车辆 路径 规划 方法 | ||
1.一种基于迁移学习的装备车辆路径规划方法,其特征在于:包括以下步骤,
S1~获取装备车辆的基础数据,包括装备车辆的长、宽、高以及承重基础参数;
S2~获取规划时间及规划目标;战中行军设置有最晚到达时间,通过不同的规划目标,包括地表距离最短、时间最短、风险最小以及油耗最少,逆推通过各关键点的时间点及可休息时间,进而计算装备车辆的最晚出发时间;
S3~获取静态规划环境数据,包括影响装备车辆行驶的地表数据、地形数据以及气象数据;
S4~获取装备车辆行驶数据,基于已获取的地表地形数据以及特定气象数据,获取相应装备车辆的行驶数据,包括载重行驶速度、转弯半径、越障高度以及爬坡能力,为路径规划的每一路段的代价距离计算做数据准备;
S5~利用DDPG算法构建路径规划模型,通过装备车辆基础数据、规划时间及规划目标、静态规划环境数据、装备车辆行驶数据建立路径规划代价函数,利用深度神经网络的预训练得到代价函数中各约束条件的参数;
S6~构建静态规划环境域,环境域即实地的栅格地图;
S7~获取动态规划环境的参数变化数据;通过战场情报相关传感器将地形、气象、路况检测数据回传指挥控制系统,实时检测地形参数q地,气象条件参数q气,敌火力干扰下安全通行参数q敌,第i个路段的风险参数Ri,路况参数q路况,路段载重参数q载重的变化;
S8~构建动态规划环境域;在静态规划环境域的基础上,通过步骤S7中获取的动态规划环境的变化数据进行实时修改,从而构建动态规划环境域;
S9~微调深度神经网络的参数,遍历深度神经网络,确定发生变化的数据相应的参数,通过人在回路的方式微调网络参数,为辅助指挥员网络调参,各参数依据相应数据变化范围迭代递增或递减;
S10~将训练好的网络参数:地形参数q地,气象条件参数q气,装备车辆破障能力参数q破,敌火力干扰下安全通行参数q敌,第i个路段的风险参数Ri,路况参数q路况,路段载重参数q载重作为路径规划算法的输入,动态调用DDPG规划算法,通过实时获取战中的地形、情报数据,不停调整规划策略,生成装备车辆的路径规划结果;
S11~通过不同战中动态规划环境可得到不同战场环境的路径规划结果,将路径规划结果及其对应的网络训练参数作为历史样本,作为静态规划环境下网络训练的测试数据,提高战场环境下路径规划的规划速度。
2.根据权利要求1所述的基于迁移学习的装备车辆路径规划方法,其特征在于:所述的步骤S2中装备车辆的最晚出发时间计算方法如下,
其中,Tstart表示装备车辆的最晚出发时间,Tarrival表示装备车辆的最晚到达时间,Trelax表示n个关键点中各关键点的休息时间,Sm表示第m段道路的代价距离,Vm表示第m段道路上装备车辆的平均行驶速度。
3.根据权利要求2所述的基于迁移学习的装备车辆路径规划方法,其特征在于:所述的步骤S5采取以下方法,
不同规划目标的代价函数goal(Dmin,Tmin,Rmin,Umin)建立如下:
a)地表距离最短目标:
计算公式:Dmin= min()所有路径,其中:D i,i+1,n1,为某路径上的第i个节点到第i+1个节点间的距离,n为路径上的节点个数;
b)时间最短目标:
计算公式:Tmin= min()所有路径;
式中,Vi = v标×q地×q气×q破×q敌,0≤q地≤1, 0≤q气≤1, 0≤q破≤1, 0≤q敌≤1;
其中:D i,i+1,n1,为某路径上的第i个节点到第i+1个节点间的距离,n为路径上的节点个数,Vi为第i个路段的平均机动速度;v标为在理想标准条件下的机动速度,q地为地形修正系数,q气为气象条件修正系数,q破为机动部队破障能力修正系数,q敌为敌火力干扰下安全程度修正系数;
c) 风险最小目标:
计算公式:Rmin= min(×Ri)所有路径;
其中:D i,i+1,n1,为某路径上的第i个节点到第i+1个节点间的距离,n为路径上的节点个数,Ri为第i个路段的风险系数;
d)油耗最少目标:
计算公式:Umin= min(×Ui)所有路径;
Ui = u标×q地×q气×q路况×q载重,0≤q地≤1,0≤q气≤1,0≤q路况≤1,0≤q载重≤1;
其中:u标为理想标准条件下的每公里耗油量,q路况为路况修正系数,q地为地形修正系数,q气为气象条件修正系数,q载重为路段载重修正系数;
深度神经网络预训练的参数为地形参数q地,气象条件参数q气,装备车辆破障能力参数q破,敌火力干扰下安全通行参数q敌,第i个路段的风险参数Ri,路况参数q路况,路段载重参数q载重;
DDPG算法中,
确定性行为策略u:定义为一个车辆行驶策略函数,上坡upx、下坡downx、左转lx、右转rx、直行gd、倒车rd,每一步的策略可通过at=u(st)计算获得,st是t时刻关于地形参数q地,气象条件参数q气,敌火力干扰下安全通行参数q敌,第i个路段的风险参数Ri,路况参数q路况,路段载重参数q载重的函数;
策略函数:策略网络即使用卷积神经网络对策略函数进行模拟,参数为t时刻的地形参数q地,气象条件参数q气,敌火力干扰下安全通行参数q敌,第i个路段的风险参数Ri,路况参数q路况,路段载重参数q载重,上坡upx、下坡downx、左转lx、右转rx、直行gd、倒车rd;
Q函数:Q网络即使用卷积神经网络对Q函数进行模拟,参数为t时刻的地形参数q地,气象条件参数q气,敌火力干扰下安全通行参数q敌,第i个路段的风险参数Ri,路况参数q路况,路段载重参数q载重;
训练的目标:最小化目标代价函数,即最小化Q网络的loss;
基于此,DDPG分别为策略网络、Q网络各创建两个神经网络拷贝,online网络和target网络,在基于一个静态战场环境域下训练策略网络、Q网络中online网络参数,再通过战场情报软件传回的参数更新策略网络、Q网络中target网络的参数, target网络参数变化小,用于训练过程中计算online网络的梯度变化;
具体训练流程如下:
1)初始化Actor\critic的online网络参数,包括地形参数q地,气象条件参数q气,敌火力干扰下安全通行参数q敌,第i个路段的风险参数Ri,路况参数q路况,路段载重参数q载重,上坡upx、下坡downx、左转lx、右转rx、直行gd、倒车rd;
2)将online网络的参数拷贝给对应的target网络参数;
3)初始化一个记忆缓存数据集Xst;
4)针对每一个状态时刻t:
5)装备车辆在st状态下根据online策略u选择一种策略at;
6)根据装备车辆选择的策略at返回相应的目标代价值goal及装备车辆新的状态st+1;
7)装备车辆将此状态st,at,goalt,st+1存入记忆缓存数据集Xst中,作为训练online网络的数据集;
8)从记忆缓存数据集Xst中随机采样N个迁移数据作为online策略网络、onlineQ网络的一组训练数据,其中si,ai,goali,si+1是一组训练数据中的单个迁移数据;
9)计算Q网络t时刻的目标代价函数goalt及其标签Yst;
10)根据战场情报软件获取的参数变化更新网络参数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于太原理工大学,未经太原理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910327893.3/1.html,转载请声明来源钻瓜专利网。