[发明专利]基于动态生成环境的无人车行驶策略规划方法及实现装置在审

申请号：	202110464610.7	申请日：	2021-04-28
公开（公告）号：	CN113276883A	公开（公告）日：	2021-08-20
发明（设计）人：	俞扬;詹德川;周志华;史正昕;罗凡明;袁雷;秦熔均	申请（专利权）人：	南京大学
主分类号：	B60W60/00	分类号：	B60W60/00;B60W50/00;G06N20/20
代理公司：	南京乐羽知行专利代理事务所(普通合伙) 32326	代理人：	李玉平
地址：	210023 江苏***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于动态生成环境无人车行策略规划方法实现装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于动态生成环境的无人车行驶策略规划方法，其特征在于，通过在模拟器中动态调整环境参数，实现模拟器到真实环境的训练方法，包括以下步骤：

(1)在模拟器中使用基于参数的方式构建无人驾驶环境；

(2)初始化强化学习参数及网络策略模型，开始训练无人驾驶车辆，通过设计的奖励函数训练车辆到达指定目标点；

(3)与环境交互，在动态生成的环境中收集无人驾驶车辆当前状态，由策略网络进行动作采样，在模拟器中执行采样得到的动作并进入新的状态；

(4)无人驾驶车辆在动态生成环境中的一次任务由进入路段开始，碰撞或到达路段目标点结束，在结束一次任务后，建立一段新的生成环境；

(5)对于无人驾驶车辆的行驶策略，在重复步骤(3)中的操作采集预定强化学习样本后，进行强策略迭代；

(6)对于无人驾驶车辆所面临的环境，对于设定参数，多次训练；

(7)持续上述步骤训练直到策略收敛，得到训练好的策略模型；

所述步骤(1)中，环境参数包含建模一段道路的道路参数，使用二阶贝塞尔曲线作为道路主线，并使用mesh网格的方法将道路主线建模为一段可供无人驾驶车辆行驶的道路模型，通过控制环境参数确定道路的形状、拐角大小、道路宽度，环境参数还能控制动态及静态障碍物，具体为确定静态障碍物的摆放位置及动态障碍物的行进方式，模拟真实场景中的静态障碍物和动态行人；

将可供无人驾驶车辆行驶的道路进行拼接：将所述可供无人驾驶车辆行驶的道路与特殊道路场景进行组合，共同组成可供无人驾驶车辆训练的连续的动态生成环境；所述特殊道路场景包括十字路口、丁字路口和狭窄道路。

2.根据权利要求1所述的基于动态生成环境的无人车行驶策略规划方法，其特征在于，所述步骤(4)中，无人驾驶车辆在动态生成环境中的一次任务由进入路段开始，碰撞或到达路段目标点结束，在结束一次任务后，收集无人驾驶车辆在该段生成环境中的累积奖励以及无人驾驶车辆是否成功完成任务，并使用一组新的参数建立一段新的生成环境。

3.根据权利要求2所述的基于动态生成环境的无人车行驶策略规划方法，其特征在于，所述步骤(6)中对于无人驾驶车辆所面临的环境，将由步骤(4)中所述的步骤不断生成环境，并基于对是否成功以及累积奖励的收集，抽取那些失败道路以及低累积奖励道路的环境参数，在这些路段进行反复多次训练，使得无人驾驶车辆获得更有针对性的训练。

4.根据权利要求1所述的基于动态生成环境的无人车行驶策略规划方法，其特征在于，所述的模拟器用于近似模拟马尔可夫决策过程的四元组形式(O,A,P,R)，提供与真实场景下无人驾驶车辆一致的观测信息，并提供与真实无人驾驶车辆一致的油门、转向的指令；在模拟器提供的马尔可夫过程中进行采样，对无人驾驶车辆进行训练；O、A、P、R分别指车辆的状态信息、车辆动作、获取、奖励；所述的状态包括无人驾驶车辆接收到的雷达信息，无人驾驶车辆当前的速度、油门大小以及转角状态，以及用于描述前方道路预瞄点信息；所述的车辆动作包括油门指令以及转角指令；所述的奖励为多种奖励函数的组合，包含向目标点前进的渐进正奖励，与障碍物发生碰撞的负奖励，完成任务的正奖励。

5.根据权利要求1所述的基于动态生成环境的无人车行驶策略规划方法，其特征在于，使用神经网络作为无人驾驶车辆行驶的策略模型，根据在模拟器中收集到的观测信息使用该策略输出待执行动作来控制无人驾驶车辆在模拟器中行驶，同时模拟器环境会给出奖励，在这个过程中收集样本，并使用近端策略优化算法PPO来优化当前策略，直至策略收敛。

6.根据权利要求4所述的基于动态生成环境的无人车行驶策略规划方法，其特征在于，所述雷达信息指环绕车身雷达射线表征的车辆周身的障碍物与车身的距离信息；车辆前方道路预瞄点信息，它是车辆行驶时前方规划的路点信息，该信息能用来告知车辆未来的行进方向。

7.根据权利要求1所述的基于动态生成环境的无人车行驶策略规划方法，其特征在于，所述训练好的策略模型用于迁移到真实场景，在真实场景下选择一片待无人驾驶车辆行驶的园区，选择车辆的出发点以及终点，在场景中布置阻碍车辆的障碍物；调用在模拟器中训练的行驶策略，对车辆进行控制，实现车辆的自动行驶。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于南京大学，未经南京大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202110464610.7/1.html，转载请声明来源钻瓜专利网。

上一篇：基于强化学习的无人机对抗博弈训练控制方法
下一篇：一种便于检测门体是否关闭的冰箱

同类专利

专利分类

B 作业；运输

B60 一般车辆
B60W 不同类型或不同功能的车辆子系统的联合控制；专门适用于混合动力车辆的控制系统；不与某一特定子系统的控制相关联的道路车辆驾驶控制系统

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于动态生成环境的无人车行驶策略规划方法及实现装置在审

专利文献下载