[发明专利]一种基于HADQN的多机器人任务分配方法在审
申请号: | 202111267956.4 | 申请日: | 2021-10-21 |
公开(公告)号: | CN114019966A | 公开(公告)日: | 2022-02-08 |
发明(设计)人: | 张子迎;陈云飞;王宇华;刘心;陈玉炜 | 申请(专利权)人: | 嘉应学院 |
主分类号: | G05D1/02 | 分类号: | G05D1/02 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 514015 广东省*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 hadqn 机器人 任务 分配 方法 | ||
本发明公开了一种基于HADQN的多机器人任务分配方法,包括:确定环境状态和动态探索因子;根据环境状态和动态探索因子,制定机器人的动作选择策略;根据制定的机器人的动作选择策略,完成轨迹池的构建和更新;根据更新后的轨迹池,对DQN算法中的经验池进行更新,得到更新后的经验池数据;根据更新后的经验池数据,对DQN算法中的全局估计值网络的参数进行训练和更新,进而进行多机器任务分配算法的任务规划。本发明解决了复杂环境下多机器人多任务分配问题时面临的维度灾难问题,并在进行任务分配的同时对局部路径进行规划,保证了机器人能够避开环境中障碍物的同时机器人选择的路径相对较优。
技术领域
本发明属于机器任务分配技术领域,尤其涉及一种基于HADQN的多机器人任务分配方法。
背景技术
近年来,由于移动机器人可以在人类不可到达的地方完成任务,已经被成功地运用到了很多领域,如战场侦察、星球探测等领域。在机器人核心研究领域,特别是多机器人系统的研究中,多机器人协作是其中很重要的一部分,其中多机器人任务分配(Multi-robot Task Allocation,MRTA)又占据主要的地位,利用多机器人协作探索未知环境与单个机器人系统相比具有信息冗余、柔韧性、并行性等特点,但在未知环境下也面临多任务分配、有线通信和信息融合等挑战。
然而,传统的多机器人任务分配方案,需要根据不同的任务环境选择不同的分配策略,并且在必要的情况下需要对策略进行完善和优化,无法适应所有的任务环境。
随着人工智能的兴起,很多基于人工智能的任务分配方法被提出,比较典型的方法有遗传算法等。这些基于人工智能的任务分配方法具有一定智能性,在面对不同的场景,无论是动态的还是静态的都有不错的表现,而且具有一定泛化能力。例如,采用改进的SOM算法实现任务分配和路径规划就,引入连续的报酬函数以加快算法的收敛速度;将事件驱动与强化学习相结合,侧重事件驱动在强化学习过程中动作决策。
通过总结现有研究成果发现,目前基于人工智能的任务分配方法主要存在如下几方面的问题:
(1)在通过强化学习的思想解决多机器人多任务分配中的状态空间过大的问题时,随着需求的增加和环境的复杂化,强化学习的维度灾难问题仍然是需要面临的巨大问题。
(2)传统强化学习在处理多机器人任务分配问题时存在状态空间过大和收敛速度慢的问题。
(3)基于传统强化学习的多机器人任务分配算法,在算法初期对环境的探索能力不足,导致算法出现学习效率低下、收敛速度慢等问题。
发明内容
本发明的技术解决问题:克服现有技术的不足,提供一种基于HADQN(Heuristically Accelerated Deep Q Network,HADQN,启发式深度Q网络)的多机器人任务分配方法,旨在解决复杂环境下多机器人多任务分配问题时面临的维度灾难问题,并在进行任务分配的同时对局部路径进行规划,保证机器人能够避开环境中障碍物的同时机器人选择的路径相对较优。
为了解决上述技术问题,本发明公开了一种基于HADQN的多机器人任务分配方法,包括:
确定环境状态和动态探索因子;
根据环境状态和动态探索因子,制定机器人的动作选择策略;
根据制定的机器人的动作选择策略,完成轨迹池的构建和更新;
根据更新后的轨迹池,对DQN算法中的经验池进行更新,得到更新后的经验池数据;
根据更新后的经验池数据,对DQN算法中的全局估计值网络的参数进行训练和更新,进而进行多机器任务分配算法的任务规划。
在上述基于HADQN的多机器人任务分配方法中,确定环境状态,包括:
根据机器人的当前位置,确定机器人与障碍物之间的实时相对位置;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于嘉应学院,未经嘉应学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111267956.4/2.html,转载请声明来源钻瓜专利网。