[发明专利]面向自动驾驶的基于深度强化学习的端到端导航避障方法在审

申请号：	202211119904.7	申请日：	2022-09-15
公开（公告）号：	CN115469663A	公开（公告）日：	2022-12-13
发明（设计）人：	尤国良;张燕咏;吉建民	申请（专利权）人：	中国科学技术大学
主分类号：	G05D1/02	分类号：	G05D1/02
代理公司：	北京科迪生专利代理有限责任公司 11251	代理人：	安丽
地址：	230026 安***	国省代码：	安徽;34
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	面向自动驾驶基于深度强化学习端到端导航方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种面向自动驾驶的基于深度强化学习的端到端导航避障方法，其特征在于，实现步骤如下：

步骤1：采用激光雷达，对激光雷达点云进行采样，生成环境一维激光点云，并通过代价地图转换算法进行转换，最终得到表示环境动态静态障碍物的障碍物地图；再通过与仿真环境进行闭环交互，不断收集环境障碍物地图，生成导航环境数据集，所述数据集包括训练集和测试集；

步骤2：构建异构智能体自我博弈避障模型，异构多智能体自我博弈模型包括：观测空间、动作空间、奖励函数和神经网络；

观测空间，表示当前智能体的观测数据；

动作空间，限定智能体采取的行为范围；

奖励函数，对智能体的行为进行约束和引导，以实现安全的导航，分别对行人和车辆设置不同的奖励函数r_r和r_v，其中使用奖励塑造方法，同时在r_v公式中引入r^w和r^d作为警告和危险区域的奖惩制；

神经网络，用于导航策略的学习；

神经网络结合奖励函数共同规划出目标行为，该目标行为包含于动作空间中；神经网络规划出的目标行为输入到智能体中，智能体执行该行为命令，并输出当前环境下的障碍物地图，所述障碍物地图包含于观测空间中，此时智能体执行的行为及获得的障碍物地图再次输入至神经网络后构成闭环训练；

结合观测空间、动作空间、奖励函数及神经网络实现在仿真环境中避障策略的学习，仿真环境是对真实世界的抽象描述，其中障碍物包括基于阿克曼模型的车辆智能体和基于差动模型的行人智能体，同时依据真实环境中动态障碍物的行为策略模式将阿克曼车辆的动作空间描述为阿克曼车辆期望行驶的轨迹，行人的动作空间描述为行人的动作方向和速度；基于上述仿真环境及异构智能体自我博弈避障模型，最终采用同一套网络结构和参数实现阿克曼车辆与阿克曼车辆之间、阿克曼车辆与差动行人之间以及差动行人与差动行人之间的智能体博弈学习，以实现多智能体在动态环境中灵活避障；

步骤3：基于步骤1中的训练集，对步骤2中的构建异构智能体自我博弈避障模型进行多阶段并行课程学习，以使神经网络更快更好的达到局部最优解，同时加速学习过程，最终得到训练后的异构智能体自我博弈避障模型；

步骤4：将训练好的异构智能体自我博弈避障模型部署到实际车辆上，在现实世界中实现导航和避障。

2.根据权利要求1所述的面向自动驾驶的基于深度强化学习的端到端导航避障方法，其特征在于：所述步骤2中构建的异构多智能体自我博弈模型中：

观察空间：由三部分组成，即智能体所处环境的障碍物地图、当前自身状态以及目标点；障碍物地图由以自我为中心的局部网格图指定；障碍物地图表示智能体周围的环境信息，包括智能体的形状和可观察到的障碍物外观；

动作空间：首先为基于差动模型的行人智能体设置连续动作空间，即设置v_t∈[0，0.6]和ω_t∈[-0.9，0.9]，其中v_t为t时刻采取的速度范围，0，0.6分别表示智能体的最大和最小速度0m/s 0.6m/s，单位：m/s，ω_t为t时刻采取的转角范围单位：rad；-0.9，0.9分别表示智能体的转角范围；其次为基于阿克曼模型的车辆智能体设置连续动作空间，即设置c_t∈[-1.43，1.43]和δ_t∈[-11.25，11.25]，其中c_t为t时刻智能体期望行驶的目标轨迹曲率，δ_t为t时刻智能体期望行驶的轨迹对应的加速度；

奖励函数：分别对行人和车辆设置不同的奖励函数r_r和r_v，其中使用奖励塑造方法，同时在r_v公式中引入r^w和r^d作为警告和危险区域的奖惩制，具体如下：

行人的奖励函数r_r：

r_r＝r^g+r^c+r^s,

车辆的奖励函数r_v其中r^g,r^c,r^s与行人的奖励函数一致：

r_v＝r^g+r^c+r^s+r^w+r^d

公式r_r中，r_arr0，p_t表示智能体在当前时间t的位置，ε是神经网络的超参数，r^g表示到达目标的奖励和离开目标的惩罚；r_col0并且r^c表示碰撞的惩罚；最后，对整个学习周期内应用一个负惩罚，即r^s0，以鼓励最短路径；

公式r_v中，r_warn,r_danger0,r^w表示当车辆的警告区域内有障碍物时的惩罚，r^d表示当车辆的危险区域内有障碍物时的惩罚；在实现中，设置r_arr＝500、ε＝10、r_col＝-500、r_s＝-5、r_warn＝-20和r_danger＝-10；

神经网络：神经网络中的策略网络的输出分别描述为基于阿克曼模型的车辆智能体和基于差动模型的行人智能体的行为，进而实现异构智能体自我博弈的学习，其中输入为各异构智能体的观测数据，包括智能体的障碍物地图、当前自身状态和目标点；修改神经网络结构中最后几层的输出层，使得该神经网络可以同时输出异构智能体的行为策略。其中修改后的输出层使用高斯分布采样获得线速度和角速度作为行人的行动方向和行动速度以及车辆期望行驶轨迹的曲率及加速度；

这种表示方式使得一套网络可以实现不同异构智能体的行为预测以及众多智能体的行为预测；神经挽留过训练结束后获得较高的导航性能，同时尽可能的模拟了真实环境中行人和车辆博弈过程，增强了导航策略的安全性。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于中国科学技术大学，未经中国科学技术大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202211119904.7/1.html，转载请声明来源钻瓜专利网。

上一篇：薄膜沉积装置及薄膜沉积方法
下一篇：基于丝网印刷和化学沉积的陶瓷织物电路制作方法

同类专利

专利分类

G 物理

G05 控制；调节
G05D 非电变量的控制或调节系统
G05D1-00 陆地、水上、空中或太空中的运载工具的位置、航道、高度或姿态的控制，例如自动驾驶仪
G05D1-02 .二维的位置或航道控制
G05D1-04 .高度或深度的控制
G05D1-08 .姿态的控制，即摇摆、俯仰角或偏航角的控制
G05D1-10 .三维的位置或航道的同时控制
G05D1-12 .寻找目标的控制

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]面向自动驾驶的基于深度强化学习的端到端导航避障方法在审

专利文献下载