[发明专利]一种基于HADQN的多机器人任务分配方法在审
申请号: | 202111267956.4 | 申请日: | 2021-10-21 |
公开(公告)号: | CN114019966A | 公开(公告)日: | 2022-02-08 |
发明(设计)人: | 张子迎;陈云飞;王宇华;刘心;陈玉炜 | 申请(专利权)人: | 嘉应学院 |
主分类号: | G05D1/02 | 分类号: | G05D1/02 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 514015 广东省*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 hadqn 机器人 任务 分配 方法 | ||
1.一种基于HADQN的多机器人任务分配方法,其特征在于,包括:
确定环境状态和动态探索因子;
根据环境状态和动态探索因子,制定机器人的动作选择策略;
根据制定的机器人的动作选择策略,完成轨迹池的构建和更新;
根据更新后的轨迹池,对DQN算法中的经验池进行更新,得到更新后的经验池数据;
根据更新后的经验池数据,对DQN算法中的全局估计值网络的参数进行训练和更新,进而进行多机器任务分配算法的任务规划。
2.根据权利要求1所述的基于HADQN的多机器人任务分配方法,其特征在于,确定环境状态,包括:
根据机器人的当前位置,确定机器人与障碍物之间的实时相对位置;
根据机器人与障碍物的实时相对位置,得到机器人与障碍物之间的实时相对状态;
根据机器人与障碍物之间的实时相对状态,得到环境状态;其中,环境状态,包括:游离状态、半成功状态、失败状态和完成状态。
3.根据权利要求1所述的基于HADQN的多机器人任务分配方法,其特征在于,获取的动态探索因子的表达式如下:
其中,ε表示动态探索因子;εfinal为一个实数,表示动态探索因子的最终稳定值,0≤εfinal<1;ε0为一个实数,表示动态探索因子的初始值,εfinal≤ε0≤1;episode为一个整数变量,表示当前迭代次数,0≤episode≤max_episode,max_episode表示最大迭代次数;ζ为一个实数,表示动态系数,0<ζ<1。
4.根据权利要求3所述的基于HADQN的多机器人任务分配方法,其特征在于,制定的机器人的动作选择策略如下:
其中,πD(s)表示动作选择策略,q为0到1之间的随机数,Q(s,(a1,...,an)|w)表示Q_eval网络,w表示Q_eval网络的权重,s表示环境状态,(a1,...,an)random表示从机器人的执行动作集合{a1,...,an}中随机选择的一个联合动作,表示选择环境状态s下Q值最大的联合动作对,ai表示机器人的执行动作i,1≤i≤n,n表示机器人的执行动作总数。
5.根据权利要求4所述的基于HADQN的多机器人任务分配方法,其特征在于,构建得到的轨迹池的表示如下:
其中,H表示轨迹池,表示轨迹池H中存储的第j个数据元组,每个数据元组均由环境状态s、联合动作(a1,...,an)、奖励值r、环境状态s下联合动作的下一步状态和数据元组的权重h构成;1≤j≤N,N表示轨迹池H的容量。
6.根据权利要求5所述的基于HADQN的多机器人任务分配方法,其特征在于,轨迹池的更新过程如下:
确定衰减率λ;
通过衰减率λ对轨迹池H中数据元组的权重h进行衰减更新:
其中,H[j].h表示轨迹池H中数据元组j的权重,H[j].s表示轨迹池H中数据元组j的环境状态,H[j].(a1,a2,…,an)表示轨迹池H中数据元组j的联合动作对,H[j].r表示轨迹池H中数据元组j的奖励值,表示轨迹池H中数据元组j的下一步状态,表示轨迹池H中当前正在执行的数据元组。
7.根据权利要求6所述的基于HADQN的多机器人任务分配方法,其特征在于,DQN算法中的经验池的更新过程如下:
每次动作选择之后,将更新后的轨迹池中的当前正在执行的数据元组作为DQN算法中的经验池D中的元组,添加至经验池D中索引为index的位置。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于嘉应学院,未经嘉应学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111267956.4/1.html,转载请声明来源钻瓜专利网。