[发明专利]基于分层强化学习的自动驾驶决策方法和装置在审
申请号: | 202210304345.0 | 申请日: | 2022-03-25 |
公开(公告)号: | CN114523990A | 公开(公告)日: | 2022-05-24 |
发明(设计)人: | 李东晨;张艺浩;魏崇山;徐修信;韩志华 | 申请(专利权)人: | 苏州挚途科技有限公司 |
主分类号: | B60W60/00 | 分类号: | B60W60/00;B60W50/00 |
代理公司: | 北京超凡宏宇专利代理事务所(特殊普通合伙) 11463 | 代理人: | 徐丽 |
地址: | 215100 江苏省苏州市相城区高*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 分层 强化 学习 自动 驾驶 决策 方法 装置 | ||
1.一种基于分层强化学习的自动驾驶决策方法,其特征在于,所述方法包括:
获取上游数据,所述上游数据包括感知融合数据、定位数据和控制数据;
将所述上游数据输入到深度学习的模型中,输出得到感受野模型和第一预测轨迹;
将所述感受野模型和所述第一预测轨迹输入到强化学习算法中,输出得到第一规划轨迹;
根据所述第一规划轨迹控制车辆执行相应操作。
2.根据权利要求1所述的基于分层强化学习的自动驾驶决策方法,其特征在于,所述感知融合数据包括障碍物坐标信息、红绿灯种类信息和车辆类别信息;所述定位数据包括自车的位置信息和周围车辆的位置信息;所述控制数据包括所述自车的状态信息和方向盘转角信息。
3.根据权利要求1所述的基于分层强化学习的自动驾驶决策方法,其特征在于,所述方法还包括:
将所述上游数据输入到车辆预测算法中进行预训练,构建预测模型;
获取当前上游数据;
将所述当前上游数据输入到所述预测模型中,输出得到所述预测轨迹;
其中,车辆预测算法为栅格法、LSTM或锚点法。
4.根据权利要求1所述的基于分层强化学习的自动驾驶决策方法,其特征在于,所述方法还包括:
将所述感受野模型和所述预测轨迹进行动态排列组合,得到下层输入数据;
将所述下层输入数据通过所述强化学习算法进行训练,得到综合评估;
将所述综合评估进行数学公式映射,得到决策模块评价和预测模块评价。
5.根据权利要求1所述的基于分层强化学习的自动驾驶决策方法,其特征在于,所述方法还包括:
根据环境信息和上一时刻的决策实时动态调整所述感受野模型,得到调整后的感受野模型;
在当前时刻对所述调整后的感受野模型进行预测,得到动态变换的第二预测轨迹;
根据所述调整后的感受野模型和所述第二预测轨迹,生成第二规划轨迹。
6.一种基于分层强化学习的自动驾驶决策装置,其特征在于,所述装置包括:
预测模块,用于获取上游数据,所述上游数据包括感知融合数据、定位数据和控制数据;将所述上游数据输入到深度学习的模型中,输出得到感受野模型和第一预测轨迹;
决策规划模块,用于将所述感受野模型和所述第一预测轨迹输入到强化学习算法中,输出得到第一规划轨迹;
控制模块,用于根据所述第一规划轨迹控制车辆执行相应操作。
7.根据权利要求6所述的基于分层强化学习的自动驾驶决策装置,其特征在于,所述感知融合数据包括障碍物坐标信息、红绿灯种类信息和车辆类别信息;所述定位数据包括自车的位置信息和周围车辆的位置信息;所述控制数据包括所述自车的状态信息和方向盘转角信息。
8.根据权利要求6所述的基于分层强化学习的自动驾驶决策装置,其特征在于,所述装置还包括:
预训练模块,用于将所述上游数据输入到车辆预测算法中进行预训练,构建预测模型;
获取模块,用于获取当前上游数据;
输入模块,用于将所述当前上游数据输入到所述预测模型中,输出得到所述预测轨迹;
其中,车辆预测算法为栅格法、LSTM或锚点法。
9.一种电子设备,包括存储器、处理器,所述存储器上存储有可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现上述权利要求1至5任一项所述的方法。
10.一种具有处理器可执行的非易失的程序代码的计算机可读介质,其特征在于,所述程序代码使所述处理器执行所述权利要求1至5任一项所述的方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏州挚途科技有限公司,未经苏州挚途科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210304345.0/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种排球扣球训练设备
- 下一篇:蒸烤箱及蒸烤箱清洗方法