[发明专利]基于深度强化学习的车辆硬件在环仿真训练系统及方法有效
申请号: | 202110054199.6 | 申请日: | 2021-01-15 |
公开(公告)号: | CN112906126B | 公开(公告)日: | 2023-04-07 |
发明(设计)人: | 余贵珍;廖亚萍;周彬;李涵;陈冠宏 | 申请(专利权)人: | 北京航空航天大学 |
主分类号: | G06F30/15 | 分类号: | G06F30/15;G06F18/214;G06N3/04;B60W50/00 |
代理公司: | 北京航智知识产权代理事务所(普通合伙) 11668 | 代理人: | 黄川;史继颖 |
地址: | 100191*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 深度 强化 学习 车辆 硬件 仿真 训练 系统 方法 | ||
1.一种利用基于深度强化学习的车辆运动规划硬件在环仿真训练系统的训练方法,所述车辆运动规划硬件在环仿真训练系统包括:
虚拟仿真单元和实车控制器,所述虚拟仿真单元包括仿真车辆模块、仿真控制模块、实车轨迹数据库、仿真传感器模块、重置接口以及启停接口;
所述仿真车辆模块包括运用虚拟引擎软件通过物理部件绘制、组装而成且与实车车型机械原理相匹配的虚拟车辆,所述虚拟车辆包括由所述仿真控制模块控制的虚拟本车车辆和由所述实车轨迹数据库中的实车轨迹数据控制的虚拟环境车辆;
所述仿真传感器模块包括虚拟传感器和虚拟传感器数据输出接口;所述虚拟传感器用于采集道路环境地图数据、虚拟环境车辆运行数据以及虚拟本车车辆运行数据;
所述重置接口用于接收所述实车控制器的重置指令,以进行所述虚拟仿真单元的环境重置,所述环境重置指结束当前所述虚拟仿真单元中所有模块的运行状态,回归重置指令所要求的状态;
所述启停接口用于接收所述实车控制器的启动指令和停止指令,以进行所述虚拟仿真单元的环境启动和停止,所述环境启动和停止指控制所述虚拟仿真单元各模块的启动工作和停止工作;
所述实车控制器包括深度网络学习模块、虚拟传感器数据输入接口、数据处理模块以及动作输出接口,所述虚拟传感器数据输入接口与所述虚拟传感器数据输出接口连接;所述数据处理模块用于对从所述虚拟传感器数据输入接口接收的数据进行处理,并将处理后数据发送至所述深度网络学习模块,计算输出控制指令;
所述仿真控制模块包括控制指令接收接口,其与所述动作输出接口连接,以接收所述控制指令;
该训练方法包括如下步骤:
S1:在所述实车控制器的深度网络学习模块中植入深度强化学习算法,并与所述虚拟仿真单元进行通信连接;
S2:初始化所述深度强化学习算法的参数,同时通过启停接口向所述虚拟仿真单元发送启动指令,启动所述虚拟仿真单元,使得所述虚拟仿真单元各模块处于待工作状态;
S3:进入所述深度强化学习算法的第j回合训练,所述实车控制器通过重置接口向所述虚拟仿真单元发送重置指令,控制所述仿真车辆模块进行虚拟车辆运动状态重置,其中将所述虚拟本车车辆的运动状态重置为静止状态,将所述虚拟环境车辆的运行状态重置为实车轨迹数据Ψ的第i个状态点对应的状态,i=1,2,...m,实车轨迹数据Ψ是从实车轨迹数据库中随机筛选出来的,Ψ=1,2,...,n;所述实车轨迹数据库中存储有n条实车轨迹数据,每条实车轨迹数据由m个状态点按照时间序列排列组成;
S4:所述仿真传感器模块通过虚拟传感器数据输出接口向所述实车控制器发送时刻T对应的数据集合ST,包括时刻T对应的道路环境地图数据、虚拟环境车辆运行状态数据以及虚拟本车车辆运行状态数据;
S5:利用所述数据处理模块对数据集合ST进行处理,获取所述深度强化学习算法所需的状态数组S'T;
S6:将状态数组S'T输入所述深度强化学习算法,计算输出控制指令aT,并将控制指令aT发送至所述仿真控制模块;
S7:所述仿真控制模块根据控制指令aT控制所述虚拟本车车辆运行Δt时间后,所述仿真传感器模块再次向所述实车控制器发送时刻T+Δt对应的数据集合ST+Δt,此时虚拟环境车辆运行状态是实车轨迹数据Ψ的第i+1个状态点对应的状态,之后进一步获取时刻T+Δt对应的状态数组S'T+Δt;
S8:基于状态数组S'T+Δt获取时刻T+Δt的碰撞时间TTC、车头时距值THW、车辆加速度变化量jerk值,进而输入所述深度强化学习算法的奖励函数r中,计算出训练回合j的奖励值rT;
S9:将{S'T,aT,S'T+Δt,rT}作为一个样本存储至所述深度强化学习算法的样本经验池中,判断样本经验池中的样本个数是否达到h;如果是,则利用经验优先和重要性采样方法筛选出Δh个样本,并对所述深度强化学习算法进行参数优化;否则直接进入步骤S10;
S10:判断所述虚拟本车车辆与所述虚拟环境车辆是否发生碰撞,或者所述虚拟环境车辆的运行状态是否已经为实车轨迹数据Ψ的第m个状态点对应的状态,若达到其中一个判断条件,则训练回合j结束,进入步骤S11;否则,设置ST=ST+1,i=i+1,进入步骤S5;
S11:判断训练回合数j是否满足达到最大回合数;如果否,则进入步骤S3,开始第j=j+1回合训练;如果是,则所述实车控制器通过启停接口向虚拟仿真单元发送停止指令,关闭虚拟仿真单元各模块工作状态,训练结束。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京航空航天大学,未经北京航空航天大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110054199.6/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种协调电力系统稳定器与二级电压控制器参数优化方法
- 下一篇:一种负压料罐