[发明专利]基于虚拟环境和深度双Q网络的自动驾驶小车训练方法在审
申请号: | 201911135830.4 | 申请日: | 2019-11-19 |
公开(公告)号: | CN110850877A | 公开(公告)日: | 2020-02-28 |
发明(设计)人: | 杜涛;张琪;田常正 | 申请(专利权)人: | 北方工业大学 |
主分类号: | G05D1/02 | 分类号: | G05D1/02;G06N3/04;G06N3/08;G06N7/00;G06T7/12;G06T7/13;G06T7/168;G06T17/05 |
代理公司: | 北京科迪生专利代理有限责任公司 11251 | 代理人: | 邓治平 |
地址: | 100144 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 虚拟 环境 深度 网络 自动 驾驶 小车 训练 方法 | ||
1.基于虚拟环境和深度双Q网络的自动驾驶小车训练方法,其特征在于,包括以下步骤:
步骤(1):参考真实赛道,预设环境参数,基于Unity构建适用于强化学习训练的小车赛道虚拟环境;
步骤(2):建立Websocket协议下的Unity虚拟训练环境与自动驾驶小车模型的通信连接,传输小车在虚拟环境中的驾驶数据;
步骤(3):建立表征小车自动驾驶过程的马尔科夫模型,利用深度双Q网络算法,训练自动驾驶模型;
步骤(4):配置实体小车软硬件环境,让实体小车拥有运行自动驾驶小车模型的系统环境,迁移已训练的自动驾驶小车模型到实体小车系统;
步骤(5):测试真实赛道下实体小车系统的自动驾驶操作,若自动驾驶小车模型不能长时间在规定道路范围内驾驶以及躲避障碍物,则提升虚拟训练环境的复杂度,增加小车在虚拟环境中的训练步长,重新进入步骤1进行训练。
2.根据权利要求1所述的基于虚拟环境和深度双Q网络的自动驾驶小车训练方法,其特征在于:
所述步骤(1)中,参考真实赛道,预设环境参数,基于Unity构建适用于强化学习训练的小车赛道虚拟环境;在Unity中建立满足逼真度高的小车赛道环境,包括不同障碍物、不同光线等多类环境因素和复杂路况的环境参量。
3.根据权利要求1所述的基于虚拟环境和深度双Q网络的自动驾驶小车训练方法,其特征在于:
所述步骤(2)中,建立Websocket协议下的Unity虚拟训练环境与自动驾驶小车模型的通信连接,传输小车在虚拟环境中的驾驶数据;Websocket协议允许服务器和客户端之间的双向双向通信,能满足基于Unity的虚拟环境与小车训练模型程序实时传输数据。
4.根据权利要求5所述的基于虚拟环境和深度双Q网络的自动驾驶小车训练方法,其特征在于:
所述步骤(2)中,传输小车在虚拟环境中的驾驶数据,经过预处理后的小车视角图片,所述预处理将每一帧图片像素大小从(120,160)调整为(80,80),再转化成灰度图并进行道路边缘检测,将累计时间步长的4帧堆叠在一起形成堆叠帧,最终预处理后小车在该时间的状态维度为(1,80,80,4)。
5.根据权利要求5所述的基于虚拟环境和深度双Q网络的自动驾驶小车训练方法,其特征在于:
使用Canny边缘检测器检测和提取道路边缘,再用Hough线变换识别直线,将直线分为正斜线和负斜线,即道路的左右线,最后剔除不属于道路的直线。
6.根据权利要求1所述的基于虚拟环境和深度双Q网络的自动驾驶小车训练方法,其特征在于:
所述步骤(3)中,建立表征小车自动驾驶过程的马尔科夫模型,利用深度双Q网络算法,训练自动驾驶模型;所述的深度双Q网络算法,包含两个参数相同的Q网络,每一个Q网络是由一个三层神经网络构成,堆叠帧状态作为输入,输出为代表15个离散转向类别的15个值。
7.根据权利要求1所述的基于虚拟环境和深度双Q网络的自动驾驶小车训练方法,其特征在于:
所述的两个参数相同的Q网络,每一个网络输入维度(1,80,80,4)的状态帧,输出单个可能的驾驶方向,网络的第一层为80×80×4×32的卷积核,步长为4,后进入一个2×2的最大池化层,第二层为一个4×4×32×64的卷积核,步长为2,通过第二层后再次进入池化;第三层为3×3×64×64的卷积核,步长为1,后再次池化;最后的隐含层由256的全连接层构成;网络建立适用于小车的强化学习奖励机制,设置能够进行梯度下降更新网络参数的损失函数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北方工业大学,未经北方工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911135830.4/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种送料滑台
- 下一篇:流量统计方法、电子设备、系统及介质