[发明专利]一种全覆盖路径规划方法、装置、存储介质、电子设备有效
申请号: | 202211169283.3 | 申请日: | 2022-09-26 |
公开(公告)号: | CN115235476B | 公开(公告)日: | 2023-01-17 |
发明(设计)人: | 娄君杰;郑鑫宇;章航嘉;郑习羽 | 申请(专利权)人: | 宁波均胜智能汽车技术研究院有限公司 |
主分类号: | G01C21/20 | 分类号: | G01C21/20;G06N3/04;G06N3/08;G06F17/16 |
代理公司: | 浙江中桓凯通专利代理有限公司 33376 | 代理人: | 刘潇 |
地址: | 315000 浙江省宁*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 覆盖 路径 规划 方法 装置 存储 介质 电子设备 | ||
1.一种基于深度强化学习的全覆盖路径规划方法,其特征在于,所述方法包括:
将智能体所处的任务区域划分为按n1×n2矩阵排列的多个格栅点;
根据在当前时刻,所述多个格栅点中每一个格栅点的环境属性,对所述每一个格栅点分别赋值,获得用于表征所述任务区域的环境状态的第一环境状态矩阵;
根据在所述当前时刻,所述智能体分别与所述每一个格栅点之间的距离,对所述每一个格栅点分别赋值,获得用于表征所述智能体的位置状态的第一位置状态矩阵;
根据在N个在前时刻,所述智能体分别与所述每一个格栅点之间的距离,对所述每一个格栅点分别赋值,获得用于表征所述智能体的艏向信息的N个艏向信息矩阵;
将所述第一环境状态矩阵、所述第一位置状态矩阵和所述N个艏向信息矩阵拼接为N+2个状态输入矩阵;
构建卷积神经网络模型,并将所述N+2个状态输入矩阵输入所述卷积神经网络模型,以使得所述卷积神经网络模型根据所述N+2个状态输入矩阵输出,输出表征所述智能体的下一步执行信息的输出值;
采用深度强化学习算法,对所述卷积神经网络模型进行训练;
采用经过训练的所述卷积神经网络模型,对所述智能体进行路径规划;
其中,N个所述在前时刻为与所述当前时刻相邻,并发生在所述当前时刻之前的时刻,N大于或等于2;n1为1-1000的整数;n2为1-1000的整数;
所述第一环境状态矩阵中的元m(i,j)为[-1,0,1]中的任一者,所述元m(i,j)根据以下原则被赋值:
所述环境属性为栅格点是障碍物时,m(i,j)=-1;
所述环境属性为栅格点已被探测到时,m(i,j)=0;
所述环境属性为栅格点未被探测到时,m(i,j)=1;
所述第一位置状态矩阵中的元disi,j根据以下原则被赋值:
;
其中,disi,j为所述智能体与所述第一位置状态矩阵的第i行第j列的栅格点之间的欧式距离,Xagent为所述智能体在与所述任务区域对应的二维平面直角坐标系中的X坐标,Yagent为所述智能体在所述二维平面直角坐标系中的Y坐标, Xi,j为所述元disi,j在所述二维平面直角坐标系中的X坐标,Yi,j为所述元disi,j在所述二维平面直角坐标系中的Y坐标,dismax为所述任务区域中的最长距离。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
在所述卷积神经网络模型的输出层,使用tanh激活函数,将所述输出值限定在[-1,1]的范围内,并将经过限定的所述输出值乘以所述智能体的最大转向限制,获得表征所述智能体的转向动作的转向动作输出值。
3.根据权利要求1或2所述的方法,其特征在于,所述采用深度强化学习算法,对所述卷积神经网络模型进行训练,包括:
根据所述智能体在所述任务区域中的探测进程,构建奖惩函数;
基于所述奖惩函数,采用深度强化学习算法,对所述卷积神经网络模型进行训练。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于宁波均胜智能汽车技术研究院有限公司,未经宁波均胜智能汽车技术研究院有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211169283.3/1.html,转载请声明来源钻瓜专利网。