[发明专利]基于模仿学习初始化的强化学习换道行为规划方法及系统在审

申请号：	202210602932.8	申请日：	2022-05-30
公开（公告）号：	CN114954498A	公开（公告）日：	2022-08-30
发明（设计）人：	郑南宁;史佳敏;张唐一可;詹钧翔;沈艳晴;辛景民;陈仕韬	申请（专利权）人：	西安交通大学
主分类号：	B60W50/00	分类号：	B60W50/00;B60W60/00;G06V20/58;G06V10/82
代理公司：	西安通大专利代理有限责任公司 61200	代理人：	王艾华
地址：	710049 ***	国省代码：	陕西;61
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于模仿学习初始化强化道行规划方法系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明提出了一种基于模仿学习初始化的强化学习换道行为规划方法及系统，通过将周围车辆的变形位姿和模糊速度通过渐变色映射到栅格图上，并将具有清晰信息的交通规则和道路状况使用向量表示，将两者连接输入模仿学习DAgger网络，使自动驾驶车辆学会遵守交通规则和基本的换道决策；再利用强化学习优化模仿学习换道机制，使其适应模仿学习数据集中没有的极端和未知交通场景；可以从车辆相互作用的驱动机制和环境中学习潜在的换道驾驶机制，简化人工驾驶建模，对变道场景的动态变化具有良好的适应性，对变道任务采用动态混合奖励机制；引入一种基于模仿学习的强化学习初始化方法，解决稀疏奖励下强化学习学习效率低的问题，只需要少量的场景数据。

技术领域

本发明属于自动驾驶行为规划领域，具体涉及基于模仿学习初始化的强化学习换道行为规划方法及系统。

背景技术

在传统的自动驾驶系统中，自动驾驶车辆接收感知模块解析出的周围环境信息，做出合理的行为规划，如换道时，选择左转、右转等，再由运动规划产生相应的运动轨迹，以此完成特定的驾驶任务。其中，在复杂和高度动态化的交通环境中，自动驾驶车辆需要考虑交通规则、周围交通参与者和道路状况来做出安全可靠的决策，这一直都是一个挑战。

而目前的决策模型主要分为三类：基于启发式的规则枚举决策模型、基于最优化理论的决策模型和基于学习的决策模型。基于启发式的决策模型，看似可以很好的描述类人的决策过程，但由于交通场景的动态性和不确定性，很难创建全面覆盖所有交通场景的规则库。基于最优化理论的决策模型，考虑车辆动力学模型和优化约束，通过优化目标函数，生成舒适安全的可行驶轨迹。但需要交通场景和车辆模型的精确建模，且优化时间短，面对复杂长视觉导航任务无法做出更加长远的最优全局决策。在基于学习的决策模型，模仿学习根据高质量和大规模的人类专家决策数据，学习到安全可靠的驾驶策略；强化学习使自动驾驶车辆在与环境交互过程中通过学习策略以达到回报最大化或实现特定目标，对未知场景表现出更好的泛化性。然而，原始的基于强化学习的方法在训练早期随机初始化策略，使得策略难以在初始环境中获得有利的奖励。此外，庞大的搜索空间和稀疏的奖励空间大大减慢了学习速度。

发明内容

为了解决现有技术中存在的问题，本发明提供基于模仿学习初始化的强化学习换道行为规划方法，通过从专家的演示中学习，缓解了强化学习初始化的低效率，快速获得与专家水平一致的行为规划能力，与仅使用模仿学习的方法相比，强化学习和模仿学习的结合还保留了强化学习与环境交互中适应的能力，以应对演示数据未涵盖的不可预测和极端情况；在分层行为规划和运动规划框架下完成，设计行为规划以实现更好的决策。至于运动规划部分，采用了先进的算法来保证框架的整体性能。

为了实现上述目的，本发明采用的技术方案是：一种基于模仿学习初始化的强化学习换道行为规划方法，包括以下步骤：

S1，构建引入周围车辆模糊速度和变形位姿的栅格图M_t，将交通规则和道路状况信息合并使用向量V_t表示；

S2，使用模仿学习初始化换道决策行为规划π_b，将所述栅格图M_t和所述向量V_t连接输入模仿学习DAgger网络，输出车辆的高级决策；

S3，初始化PPO算法中Actor网络，通过SUMO仿真场景进行交互收集多组驾驶轨迹数据，在混合奖励机制的作用下，PPO算法优化换道决策行为规划，得到优化后的高级决策b_k；

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于西安交通大学，未经西安交通大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202210602932.8/2.html，转载请声明来源钻瓜专利网。

上一篇：一种实现芯片通讯的控制电路、系统及方法
下一篇：一种具有防摔功能的护目镜

同类专利

专利分类

B 作业；运输

B60 一般车辆
B60W 不同类型或不同功能的车辆子系统的联合控制；专门适用于混合动力车辆的控制系统；不与某一特定子系统的控制相关联的道路车辆驾驶控制系统
B60W50-00 不与某一特定子系统的控制相关联的道路车辆驾驶控制的控制系统的零部件
B60W50-02 .控制系统故障时确保安全的，例如，通过诊断、防止或修理故障
B60W50-04 .监测控制系统的效能的
B60W50-06 .改善控制系统的动态响应，例如，改善调节速度或避免振荡或过冲
B60W50-08 .在驾驶员与控制系统之间的人机交流
B60W50-10 ..驾驶员请求或命令的译码

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于模仿学习初始化的强化学习换道行为规划方法及系统在审

专利文献下载