[发明专利]路径规划方法、装置、电子设备及存储介质在审
申请号: | 202310511820.6 | 申请日: | 2023-05-08 |
公开(公告)号: | CN116382299A | 公开(公告)日: | 2023-07-04 |
发明(设计)人: | 张国林;陆颖骅;吴腾阳 | 申请(专利权)人: | 中国工商银行股份有限公司 |
主分类号: | G05D1/02 | 分类号: | G05D1/02 |
代理公司: | 北京同立钧成知识产权代理有限公司 11205 | 代理人: | 吴会英;刘芳 |
地址: | 100140 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 路径 规划 方法 装置 电子设备 存储 介质 | ||
1.一种路径规划方法,其特征在于,包括:
接收机器人从目标起点至目标终点的路径规划请求;
根据所述路径规划请求,模拟所述机器人从所述目标起点移动至所述目标终点的行为,得到N个候选路径,其中,N为正整数,所述N个候选路径为经过N次模拟过程生成的,每个所述候选路径由多个时刻的位置构成;在第M次模拟过程中,根据所述机器人在t时刻与所述目标终点的距离和周边障碍物的最短距离,以及,第M次模拟过程对应的策略神经网络模型,更新所述机器人在t+1时刻的移动位置;所述t大于或等于0,M小于或等于N;
在所述N个候选路径中确定所述机器人从目标起点至目标终点的目标路径。
2.根据权利要求1所述的方法,其特征在于,所述根据所述机器人在t时刻与所述目标终点的距离和周边障碍物的最短距离,以及,第M次模拟过程对应的策略神经网络模型,更新所述机器人在t+1时刻的移动位置,包括:
将所述机器人在t时刻的状态输入至所述第M次模拟过程对应的策略神经网络模型中,获取多个所述机器人在t+1时刻的候选移动位置,以及,各候选移动位置的概率;所述t时刻的状态用于指示所述机器人在t时刻与目标终点位置之间的距离,以及,与周边障碍物的最短距离;
将所述候选移动位置的概率最大的候选移动位置,作为所述机器人在t+1时刻的移动位置。
3.根据权利要求2所述的方法,其特征在于,所述更新所述机器人在t+1时刻的移动位置之后,所述方法还包括:
模拟所述机器人按照所述t+1时刻的移动位置移动,并获取所述机器人在t+1时刻的状态;
根据所述t时刻的状态和所述t+1时刻的状态,获取所述机器人在所述t+1时刻的向目标终点移动行为对应的第一奖励函数值和避障行为对应的第二奖励函数值;
根据所述第一奖励函数值和所述第二奖励函数值,获取所述机器人在所述t+1时刻的总奖励函数值;
根据所述总奖励函数值,获取所述机器人在所述t+1时刻的累积折扣奖励;
根据所述t+1时刻的累积折扣奖励和t+1时刻的移动位置对应的概率,更新所述M次模拟过程对应的策略神经网络模型,得到第M+1次模拟过程对应的策略神经网络模型。
4.根据权利要求3所述的方法,其特征在于,所述获取所述机器人在所述t+1时刻的向目标终点移动行为对应的第一奖励函数值和避障行为对应的第二奖励函数值,包括:
获取所述机器人在t时刻受到所述目标终点位置的引力U1,以及,所述机器人在t+1时刻受到所述目标终点位置的引力U2;
根据所述机器人在t+1时刻与所述目标终点位置之间的距离、所述U1以及所述U2,获取所述第一奖励函数值;
根据所述机器人在t时刻和t+1时刻与障碍物之间的最短距离,以及,预设安全距离,获取所述第二奖励函数值。
5.根据权利要求4所述的方法,其特征在于,所述获取所述机器人在t时刻受到所述目标终点位置的引力U1,包括:
根据所述t时刻与所述目标终点位置之间的距离和引力增益系数,获取所述U1。
6.根据权利要求5所述的方法,其特征在于,所述根据所述机器人在t+1时刻与所述目标终点位置之间的距离、所述U1以及所述U2,获取所述第一奖励函数值,包括:
若所述机器人在t+1时刻与所述目标终点位置之间的距离未位于预设距离区间内,则根据所述U1和所述U2的差值,以及,奖励值调节系数获取所述第一奖励函数值;
若所述机器人在t+1时刻与所述目标终点位置之间的距离位于所述预设距离区间内,则将所述第一奖励函数值置为第一预设值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国工商银行股份有限公司,未经中国工商银行股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310511820.6/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种新能源电池调温及防护装置
- 下一篇:一种纸浆纤维打浆的方法