[发明专利]机器人路径导航方法、系统、设备及存储介质在审
申请号: | 202110632055.4 | 申请日: | 2021-06-07 |
公开(公告)号: | CN113532457A | 公开(公告)日: | 2021-10-22 |
发明(设计)人: | 吕蕾;赵盼盼;周青林;嵇存;张宇昂;吕晨 | 申请(专利权)人: | 山东师范大学 |
主分类号: | G01C21/34 | 分类号: | G01C21/34;G06N3/04;G06N3/08 |
代理公司: | 济南圣达知识产权代理有限公司 37221 | 代理人: | 黄海丽 |
地址: | 250014 山*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 机器人 路径 导航 方法 系统 设备 存储 介质 | ||
1.机器人路径导航方法,其特征是,包括:
获取机器人状态信息、障碍物信息以及目标位置信息;
将获取的信息输入到训练后的DDPG网络模型中,得到机器人路径导航结果;根据导航结果,完成机器人路径导航;
其中,DDPG网络模型通过dueling网络来计算Q值;
其中,DDPG网络模型的奖励值通过奖励函数来计算,所述奖励函数中包含欧式距离与余弦距离的差值;
其中,所述欧式距离,是指第一欧式距离与第二欧式距离之间的差值;所述第一欧式距离,是指机器人前一时刻所在的位置与目标位置之间的欧式距离,所述第二欧式距离,是指机器人当前时刻所在的位置与目标位置之间的欧式距离;
其中,所述余弦距离,是指第一向量与第二向量之间的余弦距离;所述第一向量是指目标位置指向机器人当前时刻所在位置的向量;所述第二向量是指目标位置指向机器人前一时刻所在位置的向量。
2.如权利要求1所述的机器人路径导航方法,其特征是,所述训练后的DDPG网络模型;训练步骤包括:
(1):初始化Actor当前网络、Actor目标网络、经验回放池、Critic目标网络和Critic当前网络;
(2):获取机器人状态信息S、障碍物信息以及目标位置信息;
(3):将机器人状态信息S输入Actor当前网络,Actor当前网络对状态信息S进行处理,得到执行动作A;执行动作A加上服从正态分布的随机噪声,增强机器人的搜索能力;
(4):机器人执行动作A,得到新状态S’,通过奖励函数得到奖励值R,将(S,A,S’,R,done)作为一条经验数据存入经验回放池中;
(5):Critic当前网络从经验池中取出若干个样本,通过dueling网络计算当前目标Q值;并基于当前目标Q值计算损失函数,通过梯度反向传播来更新Critic当前网络中所有参数;
(6):通过梯度反向传播来更新Actor当前网络中的所有参数;
(7):基于Actor当前网络的网络参数对Actor目标网络的网络参数进行更新;基于Critic当前网络的网络参数对Critic目标网络的网络参数进行更新;
(8):判断新状态S’是否是终止状态,如果是,则当前轮迭代完毕,否则,进入(3)。
3.如权利要求2所述的机器人路径导航方法,其特征是,所述通过奖励函数得到奖励值R;具体过程为:
其中,arrive代表到达目标位置,done代表碰撞到障碍物,R1代表由余弦距离得到的奖励值,R2代表由欧氏距离得出的奖励值。
4.如权利要求3所述的机器人路径导航方法,其特征是,所述R1,计算过程为:
vec1=(currentx-goalx,currrenty-goaly)
vec2=(pastx-goalx,pasty-goaly)
其中,(currentx,currenty)代表机器人的当前时刻所在的位置;(pastx,pasty)代表机器人的前一时刻所在的位置;vec1代表从目标位置指向当前时刻所在位置的向量;vec2代表从目标位置指向前一时刻所在位置的向量,Cos(vec1,vec2)代表两个向量之间的余弦距离。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山东师范大学,未经山东师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110632055.4/1.html,转载请声明来源钻瓜专利网。