[发明专利]基于动态生成环境的无人车行驶策略规划方法及实现装置在审

申请号：	202110464610.7	申请日：	2021-04-28
公开（公告）号：	CN113276883A	公开（公告）日：	2021-08-20
发明（设计）人：	俞扬;詹德川;周志华;史正昕;罗凡明;袁雷;秦熔均	申请（专利权）人：	南京大学
主分类号：	B60W60/00	分类号：	B60W60/00;B60W50/00;G06N20/20
代理公司：	南京乐羽知行专利代理事务所(普通合伙) 32326	代理人：	李玉平
地址：	210023 江苏***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于动态生成环境无人车行策略规划方法实现装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开一种基于动态生成环境的无人车行驶策略规划方法及实现装置，(1)在模拟器中构建无人驾驶环境。(2)初始化强化学习参数及网络策略模型。(3)与环境交互，收集无人驾驶车辆当前状态，由策略网络进行动作采样，在模拟器中执行动作并进入新的状态。(4)收集车辆在一段生成环境中的累积奖励以及是否成功完成任务，并建立一段新的生成环境。(5)对于车辆的行驶策略，在重复(3)中的操作采集一定强化学习样本后，进行强策略迭代。(6)对于车辆所面临的环境，将由(4)中所述的模式不断生成，并基于对是否成功以及累积奖励的收集，抽取那些失败道路以及低累积奖励道路的环境参数，在这些路段进行反复多次训练。(7)持续上述步骤训练直到策略收敛。

技术领域

本发明涉及一种基于动态生成环境的无人车行驶策略规划方法及实现装置，属于无人驾驶汽车技术领域。

背景技术

无人驾驶车辆是近几年研究的热门领域之一，因为无人驾驶能改善人们出行方式、提升交通安全，有着很大的应用前景，借助现有人工智能技术可以有效推动汽车产业的发展，更可以减少很多人力物力，达到高效资源利用效率。近年来随着深度学习的技术的逐步成熟与应用，深度强化学习在游戏、推荐系统、无人驾驶等领域都取得了一定的成功，将强化学习运用于无人驾驶领域，通过合适的奖励函数设计，可以在一定程度上实现高效的无人驾驶策略训练，然而深度强化学习的训练需要与真实环境进行交互采集大量数据，但车辆在真实环境中进行交互时往往试错成本太高并且无法高效收集训练数据。

针对无人驾驶试错成本太高的特点，基于强化学习的算法一般通过模拟器建立驾驶场景进行采样训练并将策略迁移到真实环境中。目前主流基于模拟器环境训练车辆的通过选取一个封闭园区，对该封闭园区在模拟器中进行1：1的建模，此类方法局限性较大，包括1：1的建模会对路面、道路边沿、弯道做精细的手工操作，建模需要消耗很多重复的操作；且由于与真实环境1：1建模，不易于进行道路宽度、样式等的修改；并且一旦封闭园区的模型建立完成，在该模拟器中训练的无人驾驶车辆策略往往只适用于被选取的封闭园区，泛化性很差，在面对着诸如道路宽度变化、转弯幅度变化等的类似场景时，之前训练得到的无人驾驶车辆策略往往无法取得预期效果，如果需要车辆策略能适应新的园区，需使用上述方法重新建立模拟器场景、训练策略模型等操作。

发明内容

发明目的：针对现有技术中基于模拟器训练时环境场景单一、多样性差，并且在传统模拟器中训练得到的驾驶策略泛化性差等缺陷，本发明提供一种基于动态生成环境的无人车行驶策略规划方法及实现装置，通过在模拟器中动态调整环境参数，实现模拟器到真实环境的高效训练。

技术方案：一种基于动态生成环境的无人车行驶策略规划方法，通过在模拟器中动态调整环境参数，实现模拟器到真实环境的高效训练方法，包括以下步骤：

(1)在UE4模拟器中使用基于参数的方式构建无人驾驶环境。

(2)初始化强化学习参数及网络策略模型，开始训练无人驾驶车辆，通过设计的奖励函数训练车辆安全、高效到达指定目标点。

(3)与环境交互，在动态生成的环境中收集无人驾驶车辆当前状态，由策略网络进行动作采样，在模拟器中执行采样得到的动作并进入新的状态。

(4)无人驾驶车辆在动态生成环境中的一次任务由进入路段开始，碰撞或到达路段目标点结束，在结束一次任务后，收集无人驾驶车辆在该段生成环境中的累积奖励以及无人驾驶车辆是否成功完成任务，并使用一组新的参数建立一段新的生成环境。

(5)对于无人驾驶车辆的行驶策略，在重复(3)中的操作采集一定强化学习样本后，进行强策略迭代。

(6)对于无人驾驶车辆所面临的环境，将由(4)中所述的模式不断生成，并基于对是否成功以及累积奖励的收集，抽取那些失败道路以及低累积奖励道路的环境参数，在这些路段进行反复多次训练，可以使得无人驾驶车辆获得更有针对性的训练。

(7)持续步骤(3)-(6)训练直到策略收敛，得到练好的策略模型。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于南京大学，未经南京大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202110464610.7/2.html，转载请声明来源钻瓜专利网。

上一篇：基于强化学习的无人机对抗博弈训练控制方法
下一篇：一种便于检测门体是否关闭的冰箱

同类专利

专利分类

B 作业；运输

B60 一般车辆
B60W 不同类型或不同功能的车辆子系统的联合控制；专门适用于混合动力车辆的控制系统；不与某一特定子系统的控制相关联的道路车辆驾驶控制系统

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于动态生成环境的无人车行驶策略规划方法及实现装置在审

专利文献下载