[发明专利]一种基于迁移学习的装备车辆路径规划方法有效

专利信息
申请号: 201910327893.3 申请日: 2019-04-23
公开(公告)号: CN110631596B 公开(公告)日: 2020-06-02
发明(设计)人: 张昊;孙玉洁;张勇;张聪姗 申请(专利权)人: 太原理工大学
主分类号: G01C21/34 分类号: G01C21/34
代理公司: 太原晋科知识产权代理事务所(特殊普通合伙) 14110 代理人: 任林芳
地址: 030024 *** 国省代码: 山西;14
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 迁移 学习 装备 车辆 路径 规划 方法
【权利要求书】:

1.一种基于迁移学习的装备车辆路径规划方法,其特征在于:包括以下步骤,

S1~获取装备车辆的基础数据,包括装备车辆的长、宽、高以及承重基础参数;

S2~获取规划时间及规划目标;战中行军设置有最晚到达时间,通过不同的规划目标,包括地表距离最短、时间最短、风险最小以及油耗最少,逆推通过各关键点的时间点及可休息时间,进而计算装备车辆的最晚出发时间;

S3~获取静态规划环境数据,包括影响装备车辆行驶的地表数据、地形数据以及气象数据;

S4~获取装备车辆行驶数据,基于已获取的地表地形数据以及特定气象数据,获取相应装备车辆的行驶数据,包括载重行驶速度、转弯半径、越障高度以及爬坡能力,为路径规划的每一路段的代价距离计算做数据准备;

S5~利用DDPG算法构建路径规划模型,通过装备车辆基础数据、规划时间及规划目标、静态规划环境数据、装备车辆行驶数据建立路径规划代价函数,利用深度神经网络的预训练得到代价函数中各约束条件的参数;

S6~构建静态规划环境域,环境域即实地的栅格地图;

S7~获取动态规划环境的参数变化数据;通过战场情报相关传感器将地形、气象、路况检测数据回传指挥控制系统,实时检测地形参数q,气象条件参数q,敌火力干扰下安全通行参数q,第i个路段的风险参数Ri,路况参数q路况,路段载重参数q载重的变化;

S8~构建动态规划环境域;在静态规划环境域的基础上,通过步骤S7中获取的动态规划环境的变化数据进行实时修改,从而构建动态规划环境域;

S9~微调深度神经网络的参数,遍历深度神经网络,确定发生变化的数据相应的参数,通过人在回路的方式微调网络参数,为辅助指挥员网络调参,各参数依据相应数据变化范围迭代递增或递减;

S10~将训练好的网络参数:地形参数q,气象条件参数q,装备车辆破障能力参数q,敌火力干扰下安全通行参数q,第i个路段的风险参数Ri,路况参数q路况,路段载重参数q载重作为路径规划算法的输入,动态调用DDPG规划算法,通过实时获取战中的地形、情报数据,不停调整规划策略,生成装备车辆的路径规划结果;

S11~通过不同战中动态规划环境可得到不同战场环境的路径规划结果,将路径规划结果及其对应的网络训练参数作为历史样本,作为静态规划环境下网络训练的测试数据,提高战场环境下路径规划的规划速度。

2.根据权利要求1所述的基于迁移学习的装备车辆路径规划方法,其特征在于:所述的步骤S2中装备车辆的最晚出发时间计算方法如下,

其中,Tstart表示装备车辆的最晚出发时间,Tarrival表示装备车辆的最晚到达时间,Trelax表示n个关键点中各关键点的休息时间,Sm表示第m段道路的代价距离,Vm表示第m段道路上装备车辆的平均行驶速度。

3.根据权利要求2所述的基于迁移学习的装备车辆路径规划方法,其特征在于:所述的步骤S5采取以下方法,

不同规划目标的代价函数goal(Dmin,Tmin,Rmin,Umin)建立如下:

a)地表距离最短目标:

计算公式:Dmin= min()所有路径,其中:D i,i+1,n1,为某路径上的第i个节点到第i+1个节点间的距离,n为路径上的节点个数;

b)时间最短目标:

计算公式:Tmin= min()所有路径

式中,Vi = v×q×q×q×q,0≤q≤1, 0≤q≤1, 0≤q≤1, 0≤q≤1;

其中:D i,i+1,n1,为某路径上的第i个节点到第i+1个节点间的距离,n为路径上的节点个数,Vi为第i个路段的平均机动速度;v为在理想标准条件下的机动速度,q为地形修正系数,q为气象条件修正系数,q为机动部队破障能力修正系数,q为敌火力干扰下安全程度修正系数;

c) 风险最小目标:

计算公式:Rmin= min(×Ri)所有路径

其中:D i,i+1,n1,为某路径上的第i个节点到第i+1个节点间的距离,n为路径上的节点个数,Ri为第i个路段的风险系数;

d)油耗最少目标:

计算公式:Umin= min(×Ui)所有路径

Ui = u×q×q×q路况×q载重,0≤q≤1,0≤q≤1,0≤q路况≤1,0≤q载重≤1;

其中:u为理想标准条件下的每公里耗油量,q路况为路况修正系数,q为地形修正系数,q为气象条件修正系数,q载重为路段载重修正系数;

深度神经网络预训练的参数为地形参数q,气象条件参数q,装备车辆破障能力参数q,敌火力干扰下安全通行参数q,第i个路段的风险参数Ri,路况参数q路况,路段载重参数q载重

DDPG算法中,

确定性行为策略u:定义为一个车辆行驶策略函数,上坡upx、下坡downx、左转lx、右转rx、直行gd、倒车rd,每一步的策略可通过at=u(st)计算获得,st是t时刻关于地形参数q,气象条件参数q,敌火力干扰下安全通行参数q,第i个路段的风险参数Ri,路况参数q路况,路段载重参数q载重的函数;

策略函数:策略网络即使用卷积神经网络对策略函数进行模拟,参数为t时刻的地形参数q,气象条件参数q,敌火力干扰下安全通行参数q,第i个路段的风险参数Ri,路况参数q路况,路段载重参数q载重,上坡upx、下坡downx、左转lx、右转rx、直行gd、倒车rd;

Q函数:Q网络即使用卷积神经网络对Q函数进行模拟,参数为t时刻的地形参数q,气象条件参数q,敌火力干扰下安全通行参数q,第i个路段的风险参数Ri,路况参数q路况,路段载重参数q载重

训练的目标:最小化目标代价函数,即最小化Q网络的loss;

基于此,DDPG分别为策略网络、Q网络各创建两个神经网络拷贝,online网络和target网络,在基于一个静态战场环境域下训练策略网络、Q网络中online网络参数,再通过战场情报软件传回的参数更新策略网络、Q网络中target网络的参数, target网络参数变化小,用于训练过程中计算online网络的梯度变化;

具体训练流程如下:

1)初始化Actor\critic的online网络参数,包括地形参数q,气象条件参数q,敌火力干扰下安全通行参数q,第i个路段的风险参数Ri,路况参数q路况,路段载重参数q载重,上坡upx、下坡downx、左转lx、右转rx、直行gd、倒车rd;

2)将online网络的参数拷贝给对应的target网络参数;

3)初始化一个记忆缓存数据集Xst

4)针对每一个状态时刻t:

5)装备车辆在st状态下根据online策略u选择一种策略at

6)根据装备车辆选择的策略at返回相应的目标代价值goal及装备车辆新的状态st+1

7)装备车辆将此状态st,at,goalt,st+1存入记忆缓存数据集Xst中,作为训练online网络的数据集;

8)从记忆缓存数据集Xst中随机采样N个迁移数据作为online策略网络、onlineQ网络的一组训练数据,其中si,ai,goali,si+1是一组训练数据中的单个迁移数据;

9)计算Q网络t时刻的目标代价函数goalt及其标签Yst

10)根据战场情报软件获取的参数变化更新网络参数。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于太原理工大学,未经太原理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201910327893.3/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top