[发明专利]一种基于深度增强学习的人机协同动态避障方法及系统有效
申请号: | 201910208033.8 | 申请日: | 2019-03-19 |
公开(公告)号: | CN109976340B | 公开(公告)日: | 2022-02-08 |
发明(设计)人: | 徐昕;姚亮;程榜;尹昕 | 申请(专利权)人: | 中国人民解放军国防科技大学 |
主分类号: | G05D1/02 | 分类号: | G05D1/02 |
代理公司: | 长沙国科天河知识产权代理有限公司 43225 | 代理人: | 邱轶 |
地址: | 410073 湖*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 深度 增强 学习 人机 协同 动态 方法 系统 | ||
1.一种基于深度增强学习的人机协同动态避障方法,其特征在于,包括以下步骤:
S1、获取智能车在t时刻的仿真感知图像It;
S2、将仿真感知图像It输入神经网络模型,神经网络模型输出智能车在t时刻的状态特征st以及执行各个动作对应的概率;
S3、根据各个动作对应的概率的分布选择智能车在t时刻的执行动作at并输出;
S4、将t时刻的动作at输入马尔可夫决策环境模型,观测并记录t时刻的状态st到t+1时刻的状态st+1存储状态转移(st,st+1)同时计算t时刻到t+1时刻的回报值rt,记录智能车在t时刻的仿真数据(st、at、rt、st+1);
S5、令t=t+1,重复步骤S1-S4直至该组仿真结束,并根据仿真结果将该组仿真的所有仿真数据{(st、at、rt、st+1)丨t=1,2,3,···}存档至正样本经验池或负样本经验池;
S6、从正样本经验池或负样本经验池中抽调仿真数据对神经网络模型进行训练优化同时循环步骤S1-S5连续训练直至仿真过程中智能车的动态避障策略能完全进行动态避障,进而完成智能车动态避障模型的构建;
S7、将步骤S6构建的智能车动态避障模型装载在智能车上,当智能车行驶过程中前方出现动态障碍物时,智能车依据人机协同策略的决策将驾驶权在驾驶员与智能车动态避障模型之间进行切换,以协助驾驶员动态避障。
2.根据权利要求1所述基于深度增强学习的人机协同动态避障方法,其特征在于,所述神经网络模型包括第一神经网络与第二神经网络,所述第一神经网络参数步骤S2的运算过程,所述第二神经网络参与步骤S6的训练优化过程,所述训练优化过程采取随机梯度下降的方法以最小化损失函数为目标来更新网络参数,第二神经网络隔固定步长将训练优化得到的神经网络参数直接赋予第一神经网络,由其不断与环境进行交互以更新训练数据。
3.根据权利要求1所述基于深度增强学习的人机协同动态避障方法,其特征在于,步骤S3中,根据ε-贪婪策略从各个动作确定智能车在t时刻的执行动作at,具体的:
以(1-ε)的比例按照神经网络模型输出的动作来选智能车的动作从而与环境交互,以ε的比例随机选取智能车的动作,此时不按照神经网络模型的输出选取动作。
4.根据权利要求1所述基于深度增强学习的人机协同动态避障方法,其特征在于,步骤S4中,所述t时刻到t+1时刻的回报值rt的计算过程为:
式中Δx,Δy分别是智能车与动态障碍物在x、y方向上的位移差值;Δv是智能车t时刻的速度与t+1时刻的速度的差值;vt是智能车在t时刻的速度;st=bump表示智能车发生碰撞的情况;st!=bump表示智能未发生碰撞的情况;xveh和xped分别表示智能车、行人在x轴方向上的位移坐标;α,δ,β,η,λ均为常数参数。
5.根据权利要求1至4任一项所述基于深度增强学习的人机协同动态避障方法,其特征在于,步骤S5中,所述正样本经验池用于存储仿真结果为智能车与动态障碍物未发生碰撞时的仿真数据,所述负样本经验池用于存储仿真结果为智能车与动态障碍物发生碰撞时的仿真数据。
6.根据权利要求5所述基于深度增强学习的人机协同动态避障方法,其特征在于,所述正样本经验池的大小为1000,所述负样本经验池的大小为100。
7.根据权利要求6所述基于深度增强学习的人机协同动态避障方法,其特征在于,所述正样本经验池的批处理大小为32,所述负样本经验池的批处理大小为8。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民解放军国防科技大学,未经中国人民解放军国防科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910208033.8/1.html,转载请声明来源钻瓜专利网。