[发明专利]多机器人的自主路径规划方法在审
申请号: | 202211335156.6 | 申请日: | 2022-10-28 |
公开(公告)号: | CN115542921A | 公开(公告)日: | 2022-12-30 |
发明(设计)人: | 吴其超;林睿 | 申请(专利权)人: | 苏州大学 |
主分类号: | G05D1/02 | 分类号: | G05D1/02 |
代理公司: | 北京庚致知识产权代理事务所(特殊普通合伙) 11807 | 代理人: | 李晓辉 |
地址: | 215006*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 机器人 自主 路径 规划 方法 | ||
1.一种多机器人的自主路径规划方法,其特征在于,包括:
S1、初始化每个机器人的初始位姿和目标点的位姿;
S2、将每个机器人的初始位置的集合s传入改进的深度强化学习模型中;
S3、根据每个机器人的初始位置的集合s选择每个机器人的将要执行的动作集合a;
S4、执行动作a得到下一时刻的位姿集合s’以及得到的奖励集合r;
S5、将(s,a,r,s')存入经验池,获得训练用样本;
S6、选择训练用样本中的至少部分样本对改进的深度强化学习模型进行训练,计算损失函数;
S7、重复执行S1至S6;当改进的深度强化学习模型的奖励值趋于收敛时,获得训练后的改进的深度强化学习模型;
S8、给所有机器人设置起始点和目标点,将机器人的位姿信息和终点信息,以及障碍物的信息穿入至训练后的改进的深度强化学习模型,获得机器人的运动指令。
2.如权利要求1所述的多机器人的自主路径规划方法,其特征在于,S3中,设置每个机器人运动控制由角速度ωi和线速度vi表示,单个机器人的动作集合为:ai=(vi,ωi);设定线速度和角速度的限制为:vi∈(0,2);ωi∈(-1.5,1.5);
整个多机器人系统将要执行的动作集合为:a=(a1,a2,…,am);
随机生成一个0到1之间的随机数,如果该随机数小于预先设置的探索因子ε,则随机从动作空间A=(v,ω)选取一个动作合集作为待执行动作;否则,选取Q值最大的动作为待执行动作。
3.如权利要求2所述的多机器人的自主路径规划方法,其特征在于,在训练过程中,探索因子ε会随着训练轮数的增加而逐渐减小。
4.如权利要求2所述的多机器人的自主路径规划方法,其特征在于,S4中,单个机器人的奖励为:ri=rn+rp+rt;其中,
rn是机器人的负向奖励,其包括rrobot_collision和robs_conllision;其中,rrobot_collision为机器人碰撞到其他机器人时的负向奖励:
robs_conllision为机器人碰撞到障碍物时的负向奖励;robs_conllision=-100;
则,
rp为机器人的正向奖励,其中,其中,rdis_reward为机器人的起始点和目标点的距离奖励,
rr为机器人对其轨迹进行优化的奖励,rt=rtime,rtime为机器人一个回合内的走过时间的奖励。
5.如权利要求1所述的多机器人的自主路径规划方法,其特征在于,S5中,经验池包括MRDDP-RRT*算法中每个机器人与环境交互的得到的数据D1以及用RRT*进行预训练部分得到的数据D2,采用动态混合采样算法,以平衡训练阶段的样本数据D1和预训练阶段的RRT*样本数据D2。
6.如权利要求1所述的多机器人的自主路径规划方法,其特征在于,S6中,使用贝尔曼方程计算行为值函数:
并通过下式迭代求解最优策略:
Critic网络中,采用DQN中的TD error方式通过Q值对参数θQ进行更新,Actor网络中,采用确定性策略,通过μ对参数θμ进行更新。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏州大学,未经苏州大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211335156.6/1.html,转载请声明来源钻瓜专利网。