[发明专利]一种动态环境中多机器人的分布式任务规划方法有效
申请号: | 201911022986.1 | 申请日: | 2019-10-25 |
公开(公告)号: | CN110674470B | 公开(公告)日: | 2022-09-23 |
发明(设计)人: | 杨文靖;王戟;徐利洋;杨绍武;黄达;李明龙;蔡中轩 | 申请(专利权)人: | 中国人民解放军国防科技大学 |
主分类号: | G06F17/18 | 分类号: | G06F17/18;G06Q10/04;G06Q10/06 |
代理公司: | 国防科技大学专利服务中心 43202 | 代理人: | 王文惠 |
地址: | 410073 湖*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明属于机器人领域,公开了一种动态环境中多机器人的分布式任务规划方法,目的是通过分布式规划,使得多机器人在一定的时间范围之内,在动态环境当中收集更多信息和避免威胁。本发明的技术方案是在分布式规划方法中融合意图共享与预测,然后在本地的搜索树中融合这些共享与预测的队友意图,最后形成一个全局奖励,从而引导本地的树搜索,最终形成一个有效的决策。本发明具有低通信代价、通用、高效的优点。 | ||
搜索关键词: | 一种 动态 环境 机器人 分布式 任务 规划 方法 | ||
【主权项】:
1.一种动态环境中多机器人的分布式任务规划方法,其特征在于,包括意图预测、意图共享、意图共享与意图预测融合三个阶段,通过以下步骤实现:/n第一步,意图预测:多个机器人之间共享当前部分可感知的环境信息以及当前的概率性的动作决策序列,基于上述条件对于当前不可观察环境、未来环境、队友动作决策做预测,包括以下步骤:/n1.1通过专家经验形成环境变化规律的马尔科夫状态转移矩阵;/n1.2多个机器人之间共享当前可观察的环境信息,本地形成历史环境观察信息;/n1.3基于本地保存的环境历史观察信息与马尔科夫动态转移矩阵计算环境的预测;/n1.4使用基于启发因子的贪婪方法对队友的动作预测,也即队友预测队友以短视近似的方法朝着最近的获得奖励最大的路径点移动,最终形成对于队友的意图预测;/n第二步,意图共享:多个机器人依据当前的蒙特卡洛搜索树,形成本地的行为意图,其中,行为意图通过动作序列概率分布来表示,包括以下步骤:/n2.1将蒙特卡洛树搜索中的一条枝杈表示一种对于未来行为动作序列的决策,并计算本地的叶子节点对应的不同的枝杈存储的奖励;/n2.2选取其中奖励最大的一部分枝杈,对应选取其中奖励最大的一部分动作决策序列;/n2.3按照奖励越大,未来选取这种行为决策序列可能性最大的原则,计算出动作序列概率分布,形成自己的行为意图;/n2.4把本地的动作意图通过发布、订阅的松散耦合的通信机制在一个话题上发布出去,同时在这个话题上订阅其他机器人的行为意图信息;/n2.5把其他机器人当前时间步的当前规划阶段的行为意图保存下来,形成一个本地行为意图,以供后面计算联合奖励;/n第三步,意图共享与意图预测相融合:基于本地的蒙特卡洛搜索树,近期奖励基于共享的意图计算,长期奖励通过预测的意图补充,在降低通信的同时使规划算法看的更为长远,并提高规划效果,包括以下步骤:/n3.1在蒙特卡洛树的选择阶段,采取动态自适应UCT的方法,实现探索与利用的平衡;/n3.2在蒙特卡洛搜索树的扩展阶段,采取强制向下扩展的策略,实现在树的深度方向对于树的强制性探索;/n3.3在蒙特卡洛树的随机模拟阶段,通过两个奖励的拼接计算联合奖励,从而引导树的不平衡的生长,形成最终的联合规划,其中,两个奖励包括短期奖励和长期奖励,短期奖励是自己的当前树的枝杈中表示的动作和在本地保存的其他机器人行为意图当中采样出来的动作计算的,长期奖励是通过对于队友行为的预测计算的,也就是在第一步当中所计算的;/n3.4在蒙特卡洛树的后向传播阶段,把已经计算出来的联合奖励向树的根节点方向进行传播,对于树中保存的统计信息进行更新,包括奖励和节点访问次数,执行完3.4后返回3.1,形成本地的内循环;/n3.5执行3.4中内循环一定次数之后,返回1.1,形成外循环,其中,内循环执行10000次,外循环执行100次,形成不平衡搜索树,迭代查找树中奖励最大的枝杈,形成当前规划时间步最终的决策序列。/n
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民解放军国防科技大学,未经中国人民解放军国防科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201911022986.1/,转载请声明来源钻瓜专利网。