[发明专利]一种面向自动驾驶的平行规划方法、设备及存储介质有效
申请号: | 202110254316.3 | 申请日: | 2021-03-09 |
公开(公告)号: | CN112947466B | 公开(公告)日: | 2023-04-07 |
发明(设计)人: | 胡学敏;陈龙 | 申请(专利权)人: | 湖北大学 |
主分类号: | G05D1/02 | 分类号: | G05D1/02 |
代理公司: | 武汉智嘉联合知识产权代理事务所(普通合伙) 42231 | 代理人: | 陈建军 |
地址: | 430062 湖北*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 面向 自动 驾驶 平行 规划 方法 设备 存储 介质 | ||
1.一种面向自动驾驶的平行规划方法,其特征在于,包括如下步骤:
获取虚拟驾驶场景数据和真实驾驶场景数据,并基于所述虚拟驾驶场景数据和真实驾驶场景数据建立联合数据集;
构建端到端的自动驾驶运动规划模型;
构建用于预测各种虚拟未来驾驶场景的平行时空视频生成模型;
采用所述联合数据集对所述自动驾驶运动规划模型和平行时空视频生成模型进行训练,以得到平行规划模型;
采用所述平行规划模型对各种虚拟未来驾驶场景进行平行规划;
所述自动驾驶运动规划模型的基础模型为深度强化模型,其中,所述深度强化模型采用深度Q网络与Actor-Critic框架融合的算法建立,Actor网络采用分层的结构,高层决策输出为驾驶行为,低层决策输出为具体的规划指令;Critic网络输出Q值,用于评价动作的好坏和计算梯度,更新网络;
所述自动驾驶运动规划模型的状态提取网络由卷积神经网络与长短时记忆网络级联构成;
所述端到端的自动驾驶运动规划模型的建立过程为:
第一步、状态提取网络设计:状态提取网络由CNN和LSTM级联组成;
第二步、分层策略的体系结构设计:分层强化学习决策框架由两部分组成,包括高层动作选择和低层运动规划,在高层的行为选择级别,主策略选择当前状态下要执行的动作;在低层的运动规划级别,激活相应的行为策略,并向执行器输出方向盘转向角和油门、刹车指令;
第三步、整车控制的体系结构设计:车辆的运动由横向和纵向执行器共同控制,两种执行器相对独立,每一个策略都包含一个转向策略网络SP-Net和一个加速策略网络AP-Net,分别执行横向和纵向控制;
第四步、异步并行强化网络的设计:采用异步并行学习器训练策略
,
其中,表示时间误差,在前向网络中使用
,
即在
,
Actor-Critic方法的策略梯度是,在目标函数中加入策略的熵,从而使策略走向更大的熵,通过阻止过早收敛到次优策略来促进探索,总梯度由策略梯度项和熵正则化项组成,因此,在状态
,
其中,
2.根据权利要求1所述的面向自动驾驶的平行规划方法,其特征在于,所述自动驾驶运动规划模型的输入为自动驾驶汽车中左、中、右三个前向RGB车载相机采集的序列图像,所述自动驾驶运动规划模型的输出包括高层输出和低层输出,其中,所述高层输出为驾驶决策,所述低层输出为具体的规划指令。
3.根据权利要求1所述的面向自动驾驶的平行规划方法,其特征在于,所述平行时空视频生成模型由改进的条件生成对抗网络构成。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于湖北大学,未经湖北大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110254316.3/1.html,转载请声明来源钻瓜专利网。