[发明专利]路径规划模型的训练、路径规划方法、装置及电子设备有效
申请号: | 202111035827.2 | 申请日: | 2021-09-06 |
公开(公告)号: | CN113467487B | 公开(公告)日: | 2021-11-23 |
发明(设计)人: | 徐博;成芳娟;张鸿铭;王燕娜 | 申请(专利权)人: | 中国科学院自动化研究所 |
主分类号: | G05D1/02 | 分类号: | G05D1/02 |
代理公司: | 北京墨丘知识产权代理事务所(普通合伙) 11878 | 代理人: | 谷轶楠 |
地址: | 100190 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 路径 规划 模型 训练 方法 装置 电子设备 | ||
1.一种路径规划模型的训练方法,其特征在于,包括:
获取样本数据以及剩余决策次数,所述样本数据包括当前时刻的环境状态以及损失计算参数,所述损失计算参数用于损失函数的计算;
将所述当前时刻的环境状态以及所述剩余决策次数输入路径规划模型,并利用所述剩余决策次数对所述路径规划模型预测结果中的非空动作进行约束,以输出当前时刻的执行动作并更新所述剩余决策次数,所述路径规划模型是基于强化学习模型建立的;
根据所述当前时刻的执行动作以及所述损失计算参数进行损失函数的计算,并基于计算结果更新所述路径规划模型的参数,以确定目标路径规划模型;
其中,所述路径规划模型包括策略网络以及价值网络,所述将所述当前时刻的环境状态以及所述剩余决策次数输入路径规划模型,并利用所述剩余决策次数对所述路径规划模型预测结果中的非空动作进行约束,以输出当前时刻的执行动作,包括:
将所述当前时刻的环境状态输入所述策略网络的第一全连接层进行非线性转换,得到预测结果,所述预测结果包括非空动作以及空动作;
将所述剩余决策次数与所述预测结果进行融合;
基于融合结果确定所述当前时刻的执行动作;
所述将所述剩余决策次数与所述预测结果进行融合,包括:
对所述剩余决策次数进行编码,得到决策约束特征;
将所述决策约束特征输入所述策略网络的第二全连接层进行非线性转换,并将所述第二全连接层的输出与所述非空动作的值相乘;
将相乘结果与所述空动作的值进行拼接,得到所述融合结果。
2.根据权利要求1所述的训练方法,其特征在于,所述将所述当前时刻的环境状态输入所述策略网络的第一全连接层进行非线性转换,得到预测结果,包括:
利用所述第一全连接层中带偏置项的激活函数对所述当前时刻的环境状态进行计算,并将计算结果与预设值相加,以得到所述预测结果。
3.根据权利要求1或2所述的训练方法,其特征在于,所述将所述当前时刻的环境状态输入所述策略网络的第一全连接层进行非线性转换,还得到预测结果,包括:
利用所述当前时刻的环境状态,计算目标体与障碍物的位置参数,所述位置参数包括相对距离与方位角;
将所述位置参数输入所述第一全连接层进行非线性转换,得到所述预测结果。
4.根据权利要求1所述的训练方法,其特征在于,所述获取样本数据,包括:
初始化预设路径规划模型,得到所述路径规划模型;
将初始环境状态以及决策次数输入所述路径规划模型中,并利用所述决策次数对所述路径规划模型非空动作进行约束,以输出当前状态的动作;
执行所述当前状态的动作确定更新后的初始环境状态,并获得对应的奖励值,并保存所述初始环境状态、所述当前状态的动作、所述奖励值以及所述更新后的初始环境状态,以确定所述样本数据。
5.根据权利要求4所述的训练方法,其特征在于,所述获得对应的奖励值,包括:
当目标体未到达目标点且未碰撞到障碍物,确定所述奖励值为零;
当所述目标体到达所述目标点且未碰撞到障碍物,确定所述奖励值为正向奖励;
当所述目标体碰撞到障碍物无法到达所述目标点,确定所述奖励值为负向奖励。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院自动化研究所,未经中国科学院自动化研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111035827.2/1.html,转载请声明来源钻瓜专利网。