[发明专利]基于行车风险分析的车辆强化学习运动规划方法在审
申请号: | 202210336477.1 | 申请日: | 2022-03-31 |
公开(公告)号: | CN114779764A | 公开(公告)日: | 2022-07-22 |
发明(设计)人: | 周彬;廖亚萍;余贵珍;倪浩原;张传莹 | 申请(专利权)人: | 北京航空航天大学 |
主分类号: | G05D1/02 | 分类号: | G05D1/02 |
代理公司: | 北京天汇航智知识产权代理事务所(普通合伙) 11987 | 代理人: | 黄川 |
地址: | 100191*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 行车 风险 分析 车辆 强化 学习 运动 规划 方法 | ||
一种基于行车风险分析的车辆强化学习运动规划方法,包括:获取本车所在车道的两侧边界信息由车道两侧边界点横纵坐标(Xr,Xl)以及本车到左右两侧边界的垂直距离(dl,dr)组成;利用高精度地图和雷达获取状态信息数组由本车坐标位置(X,Y)、障碍物的坐标位置(Xobs,Yobs)和相对速度Δv组成;距离Δv=[Δv1,Δv2,...,Δvn],n是检测到的障碍物数量;将和组合成状态向量相对状态信息输入基于深度强化学习的车辆运动规划模型Φ,以输出本车动作向量action=[a,θ],其中a∈[‑amax,amax]是加速度动作,amax为最大加速度,θ∈[‑θmax,θmax]是方向盘转角动作,当θ∈[0,θmax]时为向左转动θ,当θ∈[‑θmax,0]时为向右转动θ;本车根据获取的action行驶t时长后,判断是否到达目的地,若是则结束工作状态,否则进入步骤1进行下一时间步长的车辆控制。
技术领域
本发明属于无人驾驶车辆运动规划领域,更具体地涉及一种基于行车风险分析的车辆强化学习运动规划方法。
背景技术
运动规划模块是无人驾驶的重要技术环节,在无人驾驶技术链中上承环境感知模块,下接执行控制模块,是无人驾驶车辆的智能指挥中心。过去,无人驾驶运动规划研究主要采用规则式方法、监督式学习方法和优化方法,其中规则式方法仅能基于一定的假设条件针对简单的特定行车环境进行参数建模,例如跟车、换道、避障等特定场景,但不适用于复杂多变的城市行车场景;监督式学习方法需要采集大量行车场景数据进行数据“喂养式”建模,该方法不仅需要耗费大量的人力物力进行大数据采集,而且所建立的学习模型泛化性差,无法适应未学习到的行车场景;基于优化的方法通常通过构建目标函数和约束条件,采用优化求解器计算最优动作,虽然模型稳定性好,但计算耗时过长。
深度强化学习结合了深度学习的高维数据处理优势和强化学习的自主决策优势,其自学习优化模式无需采集任何先验数据,且具有较强的泛化性,能够适应复杂多变的城市道路环境,同时深度网络计算具备较好的实时性优势,因此许多学者将深度强化学习应用于无人驾驶运动规划领域。目前基于深度强化学习的运动规划研究多采用端到端的训练策略,神经网络的黑盒特性使得模型输出动作缺乏可解释性,且模型多采用稀疏奖励进行策略寻优,使得模型难以收敛且需要耗费大量时长进行试错训练。
基于此,本领域需要一种能够适应复杂多变的城市道路环境,具有较好的实时性优势,模型输出动作具备可解释性,不需要耗费大量时长进行试错训练的车辆强化学习运动规划方法。
发明内容
为了解决上述现有技术中的问题,为克服现有技术的不足,本发明的实施方式提出一种基于行车风险分析的车辆深度强化学习运动规划方法。具体而言,利用深度强化学习训练架构设计车辆运动规划策略,通过考虑道路和周围车辆对本车的行车风险特性,构建基于行车风险分析的奖励函数,以避免奖励稀疏性,通过在模型训练策略中引入基于行车风险阈值的动作干涉机制,对错误动作进行纠正,达到提高模型训练效率同时保证模型安全可靠的目的。
为实现上述目的,本发明的一个实施方式提供了一种基于行车风险分析的车辆强化学习运动规划方法,包括如下步骤:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京航空航天大学,未经北京航空航天大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210336477.1/2.html,转载请声明来源钻瓜专利网。