[发明专利]一种基于改进A*算法和深度强化学习的无人车路径规划方法有效
申请号: | 202010670465.3 | 申请日: | 2020-07-13 |
公开(公告)号: | CN111780777B | 公开(公告)日: | 2022-10-21 |
发明(设计)人: | 丘腾海;蒲志强;刘振;易建强;常红星 | 申请(专利权)人: | 江苏中科智能制造研究院有限公司;中国科学院自动化研究所 |
主分类号: | G01C21/34 | 分类号: | G01C21/34 |
代理公司: | 合肥左心专利代理事务所(普通合伙) 34152 | 代理人: | 游玉香 |
地址: | 225300 江苏省泰州市*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 改进 算法 深度 强化 学习 无人 路径 规划 方法 | ||
1.一种基于改进A*算法和深度强化学习的无人车路径规划方法,其特征在于,包括以下步骤:
(1)根据环境信息,建立初始化栅格代价地图,利用SALM技术对环境进行地图建模,提取障碍物信息,标定障碍物类型,通过代价模型对障碍物周围栅格的威胁进行评估;
(2)利用改进的A*算法规划全局路径,考虑障碍物代价和路径转折点过多的问题,引入启发式信息,改进A*算法模型,优化全局规划结果;
(3)基于全局路径和激光雷达传感器性能,设计滑动窗口,将窗口探测的信息作为网络的状态输入,进行局部规划,具体步骤为:
1)根据激光雷达探测距离初始化滑动窗口大小为W,W是奇数;
2)以无人车起始位置作为滑动窗口的中心原点Ow;
3)将全局规划得到的路径序列与滑动窗口相交的第一个节点作为局部路径规划网络的临时目标点Tw和状态输入量;
4)当无人车到达临时目标点后,将该时刻的临时目标点作为起始点,切换滑动窗口;
(4)基于深度强化学习方法,采用Actor-Critic架构,设计局部规划网络,具体步骤如下:
1)设计局部规划网络的状态输入空间,将栅格全局坐标系下的障碍物、目标、无人车位置信息转换到以滑动窗口中心为原点的局部坐标系下,并将其作为局部规划网络的状态输入s,表达式如下所示,组成状态空间S:
其中,sl表示激光雷达传感器所有探针测得的障碍物距离向量,sl={l1,…lN},l1…lN表示探针测得的距离,N表示激光雷达传感器的探针数量,分别表示滑动窗口局部坐标系下临时目标点的坐标,px、py分别表示无人车在局部坐标系下的x、y轴坐标,vx、vy分别表示无人车在局部坐标系下的x、y轴的速度分量;
2)设计无人车在局部规划网络的决策动作空间,在滑动窗口局部坐标系下,将无人车机动方向动作分为前、后、左、右、左前、左后、右前、右后八个候选动作无人车机动速率动作分为五个离散候选速率动作,于是无人车决策动作表达式如下,组成动作空间A:
a={ad,av}
3)结合栅格代价地图,设计局部规划网络的回报函数r,具体表达式如下所示:
其中,dt、dt-1分别表示当前时刻与前一时刻无人车与临时目标点的距离,v表示无人车在滑动窗口的机动速度,dt表示时间间隔,λ1、λ2表示奖惩系数,表示当无人车与滑动窗口临时目标点的距离随时间变大时,给予无人车负的惩罚;表示当无人车与滑动窗口临时目标点的距离随时间变小时,给予无人车正的奖励;rs表示无人车每走一步,根据栅格代价地图得到的惩罚;rc表示碰到障碍物时的惩罚;ra表示到达临时目标点时的惩罚;
4)采用Actor-Critic架构,设计局部规划网络,并训练网络模型,将网络结构分为策略网络和价值网络,所述策略网络用于预测无人车的下一步动作,包括障碍物第一特征提取模块、目标引导模块和第一全连接层模块;所述价值网络用于对策略网络选择的动作评分,通过第二特征提取模块提取无人车状态和动作,再由第二全连接层模块计算综合价值,评估动作的好坏程度,反馈给策略网络,采用课程训练的方式,逐步增加训练环境的复杂程度,直至训练误差小于ε,结束网络模型的训练;
(5)结合全局规划路径,将训练好的局部规划网络模型应用于无人车导航。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于江苏中科智能制造研究院有限公司;中国科学院自动化研究所,未经江苏中科智能制造研究院有限公司;中国科学院自动化研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010670465.3/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种基于3D全息投影的人工智能展示系统
- 下一篇:工业固废脱硫石膏预处理方法