[发明专利]面向自动驾驶的基于深度强化学习的端到端导航避障方法在审
申请号: | 202211119904.7 | 申请日: | 2022-09-15 |
公开(公告)号: | CN115469663A | 公开(公告)日: | 2022-12-13 |
发明(设计)人: | 尤国良;张燕咏;吉建民 | 申请(专利权)人: | 中国科学技术大学 |
主分类号: | G05D1/02 | 分类号: | G05D1/02 |
代理公司: | 北京科迪生专利代理有限责任公司 11251 | 代理人: | 安丽 |
地址: | 230026 安*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 面向 自动 驾驶 基于 深度 强化 学习 端到端 导航 方法 | ||
1.一种面向自动驾驶的基于深度强化学习的端到端导航避障方法,其特征在于,实现步骤如下:
步骤1:采用激光雷达,对激光雷达点云进行采样,生成环境一维激光点云,并通过代价地图转换算法进行转换,最终得到表示环境动态静态障碍物的障碍物地图;再通过与仿真环境进行闭环交互,不断收集环境障碍物地图,生成导航环境数据集,所述数据集包括训练集和测试集;
步骤2:构建异构智能体自我博弈避障模型,异构多智能体自我博弈模型包括:观测空间、动作空间、奖励函数和神经网络;
观测空间,表示当前智能体的观测数据;
动作空间,限定智能体采取的行为范围;
奖励函数,对智能体的行为进行约束和引导,以实现安全的导航,分别对行人和车辆设置不同的奖励函数rr和rv,其中使用奖励塑造方法,同时在rv公式中引入rw和rd作为警告和危险区域的奖惩制;
神经网络,用于导航策略的学习;
神经网络结合奖励函数共同规划出目标行为,该目标行为包含于动作空间中;神经网络规划出的目标行为输入到智能体中,智能体执行该行为命令,并输出当前环境下的障碍物地图,所述障碍物地图包含于观测空间中,此时智能体执行的行为及获得的障碍物地图再次输入至神经网络后构成闭环训练;
结合观测空间、动作空间、奖励函数及神经网络实现在仿真环境中避障策略的学习,仿真环境是对真实世界的抽象描述,其中障碍物包括基于阿克曼模型的车辆智能体和基于差动模型的行人智能体,同时依据真实环境中动态障碍物的行为策略模式将阿克曼车辆的动作空间描述为阿克曼车辆期望行驶的轨迹,行人的动作空间描述为行人的动作方向和速度;基于上述仿真环境及异构智能体自我博弈避障模型,最终采用同一套网络结构和参数实现阿克曼车辆与阿克曼车辆之间、阿克曼车辆与差动行人之间以及差动行人与差动行人之间的智能体博弈学习,以实现多智能体在动态环境中灵活避障;
步骤3:基于步骤1中的训练集,对步骤2中的构建异构智能体自我博弈避障模型进行多阶段并行课程学习,以使神经网络更快更好的达到局部最优解,同时加速学习过程,最终得到训练后的异构智能体自我博弈避障模型;
步骤4:将训练好的异构智能体自我博弈避障模型部署到实际车辆上,在现实世界中实现导航和避障。
2.根据权利要求1所述的面向自动驾驶的基于深度强化学习的端到端导航避障方法,其特征在于:所述步骤2中构建的异构多智能体自我博弈模型中:
观察空间:由三部分组成,即智能体所处环境的障碍物地图、当前自身状态以及目标点;障碍物地图由以自我为中心的局部网格图指定;障碍物地图表示智能体周围的环境信息,包括智能体的形状和可观察到的障碍物外观;
动作空间:首先为基于差动模型的行人智能体设置连续动作空间,即设置vt∈[0,0.6]和ωt∈[-0.9,0.9],其中vt为t时刻采取的速度范围,0,0.6分别表示智能体的最大和最小速度0m/s 0.6m/s,单位:m/s,ωt为t时刻采取的转角范围单位:rad;-0.9,0.9分别表示智能体的转角范围;其次为基于阿克曼模型的车辆智能体设置连续动作空间,即设置ct∈[-1.43,1.43]和δt∈[-11.25,11.25],其中ct为t时刻智能体期望行驶的目标轨迹曲率,δt为t时刻智能体期望行驶的轨迹对应的加速度;
奖励函数:分别对行人和车辆设置不同的奖励函数rr和rv,其中使用奖励塑造方法,同时在rv公式中引入rw和rd作为警告和危险区域的奖惩制,具体如下:
行人的奖励函数rr:
rr=rg+rc+rs,
车辆的奖励函数rv其中rg,rc,rs与行人的奖励函数一致:
rv=rg+rc+rs+rw+rd
公式rr中,rarr0,pt表示智能体在当前时间t的位置,ε是神经网络的超参数,rg表示到达目标的奖励和离开目标的惩罚;rcol0并且rc表示碰撞的惩罚;最后,对整个学习周期内应用一个负惩罚,即rs0,以鼓励最短路径;
公式rv中,rwarn,rdanger0,rw表示当车辆的警告区域内有障碍物时的惩罚,rd表示当车辆的危险区域内有障碍物时的惩罚;在实现中,设置rarr=500、ε=10、rcol=-500、rs=-5、rwarn=-20和rdanger=-10;
神经网络:神经网络中的策略网络的输出分别描述为基于阿克曼模型的车辆智能体和基于差动模型的行人智能体的行为,进而实现异构智能体自我博弈的学习,其中输入为各异构智能体的观测数据,包括智能体的障碍物地图、当前自身状态和目标点;修改神经网络结构中最后几层的输出层,使得该神经网络可以同时输出异构智能体的行为策略。其中修改后的输出层使用高斯分布采样获得线速度和角速度作为行人的行动方向和行动速度以及车辆期望行驶轨迹的曲率及加速度;
这种表示方式使得一套网络可以实现不同异构智能体的行为预测以及众多智能体的行为预测;神经挽留过训练结束后获得较高的导航性能,同时尽可能的模拟了真实环境中行人和车辆博弈过程,增强了导航策略的安全性。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学技术大学,未经中国科学技术大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211119904.7/1.html,转载请声明来源钻瓜专利网。