[发明专利]基于深度强化学习的自动驾驶车辆换道决策系统及方法在审
申请号: | 202210443895.0 | 申请日: | 2022-04-25 |
公开(公告)号: | CN114802248A | 公开(公告)日: | 2022-07-29 |
发明(设计)人: | 熊明强;谯杰;江萌;刘铮 | 申请(专利权)人: | 中汽院智能网联科技有限公司;中国汽车工程研究院股份有限公司 |
主分类号: | B60W30/18 | 分类号: | B60W30/18;B60W50/00;B60W60/00 |
代理公司: | 重庆强大凯创专利代理事务所(普通合伙) 50217 | 代理人: | 范淑萍 |
地址: | 400000 重庆市两江新区金*** | 国省代码: | 重庆;50 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 深度 强化 学习 自动 驾驶 车辆 决策 系统 方法 | ||
1.基于深度强化学习的自动驾驶车辆换道决策系统,其特征在于:包括处理器模块,以及分别与处理器模块连接的数据采集模块、数据分析模块和换道策略模块;
所述数据采集模块,用于采集目标车辆的数据信息,以及采集目标车辆附近的干扰车辆的运行数据,然后形成第一数据集合并将第一数据集合发送至数据分析模块;
所述数据分析模块,用于对第一数据集合进行分析处理,并得到自动驾驶车辆的换道场景以及换道数据;
所述换道策略模块,用于根据得到的换道场景和换道数据生成第一换道策略,并将第一换道策略发送至处理器模块;
所述处理器模块,包括数据存储单元和换道执行单元,所述数据存储单元,用于存储第一换道策略;所述换道执行单元,用于根据所述第一换道策略得到基于规则的换道轨迹执行模型并控制自动驾驶车辆进行车道变更。
2.根据权利要求1所述的基于深度强化学习的自动驾驶车辆换道决策系统,其特征在于:所述第一数据集合包括当前时刻周边车辆信息、当前时刻周边道路信息、下一时刻周边道路信息、下一时刻周边车辆信息和本车车辆信息。
3.根据权利要求1所述的基于深度强化学习的自动驾驶车辆换道决策系统,其特征在于:所述对第一数据集合进行分析处理为,利用预设的分析算法对有限的第一数据集合进行无限场景探索分析,并在得到对应的换道场景前,对分析过程进行深度强化学习。
4.根据权利要求3所述的基于深度强化学习的自动驾驶车辆换道决策系统,其特征在于:所述预设的分析算法为Actor-Critic算法;所述深度强化学习为,利用马尔可夫决策过程对分析过程进行描述,形成一个六次元组M=(S,A,P,r,ρ,γ),其中S为状态空间,所述状态空间为所有状态的集合;A为动作空间,所述动作空间为所有动作的集合;P为状态转移概率;r为状态转移过程的奖励函数;γ为状态转移过程中的折扣系数。
5.根据权利要求4所述的基于深度强化学习的自动驾驶车辆换道决策系统,其特征在于:所述奖励函数为式中,v为车辆实时速度,vmin为车辆训练过程中采用的最小速度,vmax为车辆训练过程中采用的最大速度,a为对于换道过程中速度奖励值,b是对车辆发生碰撞的碰撞惩罚值,collision为仿真环境对于车辆发生碰撞的反馈结果。
6.根据权利要求1所述的基于深度强化学习的自动驾驶车辆换道决策系统,其特征在于:所述数据分析模块在基于规则换道模型的基础上使用深度强化学习方法对换道模型进行训练和尝试,最后对模型进行验证。
7.根据权利要求1所述的基于深度强化学习的自动驾驶车辆换道决策系统,其特征在于:所述换道策略模块在生成换道策略时利用基于规则的轨迹规划算法来辅助计算,所述基于规则的轨迹规划算法表达式为其中θi为规划步长起点的航向角,为终点横向坐标,xn为车辆n的纵向位置,yn为车辆n的横向位置。
8.根据权利要求3所述的基于深度强化学习的自动驾驶车辆换道决策系统,其特征在于:所述利用马尔可夫决策过程对分析过程进行描述时,状态值函数定义如下,其中at,rt,st+1,at+1,rt+1,...~π表示轨迹来自策略π与环境的交互。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中汽院智能网联科技有限公司;中国汽车工程研究院股份有限公司,未经中汽院智能网联科技有限公司;中国汽车工程研究院股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210443895.0/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种便于出料的整经机
- 下一篇:箱式变电站监控平台