[发明专利]基于角色分配的群体分布式控制方法及装置有效
申请号: | 202110922017.2 | 申请日: | 2021-08-12 |
公开(公告)号: | CN113391556B | 公开(公告)日: | 2021-12-07 |
发明(设计)人: | 丘腾海;张天乐;蒲志强;刘振;朱金营;易建强;常红星 | 申请(专利权)人: | 中国科学院自动化研究所 |
主分类号: | G05B13/04 | 分类号: | G05B13/04 |
代理公司: | 北京路浩知识产权代理有限公司 11002 | 代理人: | 吴刚 |
地址: | 100190 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 角色 分配 群体 分布式 控制 方法 装置 | ||
本发明提供一种基于角色分配的群体分布式控制方法及装置,方法包括:将获取的群体中的智能体的观测状态输入至第一策略网络模型中,得到第一策略网络模型输出的各智能体的角色类型;将智能体的观测状态与各智能体的角色类型输入至第二策略网络模型中,得到第二策略网络模型输出的对应智能体的动作;控制智能体执行动作;其中,第一策略网络模型和第二策略网络模型是利用智能体样本数据进行训练得到的,其中第二策略网络模型的输入为第一策略网络模型的输出。本发明通过构建具有角色分配的第一策略网络模型结构以及构建具有基于角色类型分配相应动作的第二策略网络模型结构,实现动态不确定环境下群体无碰撞的协同控制。
技术领域
本发明涉及无人群体系统协同技术领域,尤其涉及一种基于角色分配的群体分布式控制方法及装置。
背景技术
近些年,无人群体系统由于其独特优势和巨大的应用潜能吸引了众多研究者的关注,可广泛应用于仓储物流、应急救援和城市安防等。其中大部分的群体系统都是同构智能体,共同完成同一个任务,而且智能体都是比较简单,个体能力有限的,比如局部感知、局部通信和有限的机动能力等。
然而,大部分的多智能体强化学习方法在解决复杂任务中的群体协同中缺乏群体策略的扩展性和灵活性。有些方法通过群共享和学习策略网络的方式虽然具有扩展性,但随着群体中智能体数量的增多面临维数灾难的问题,尤其对于多复杂任务场景要求群体中各智能体具有多种技能,简单群共享机制的效果不佳。
目前,为解决简单群共享机制的效果不佳的问题,对复杂任务进行分解,通过为每个智能体分配子任务的方式以共同完成复杂任务。由于这种方式需要使用先验领域知识用来分解任务,并定义每个角色智能体的职责,对于动态不确定环境下的群体系统适应性较差。因此,如何构建具有群体策略扩展性和灵活性,结合先验知识,避免群体维数灾难,使得群体能够在动态不确定环境下完成群体复杂任务具有深远意义。
发明内容
本发明提供一种基于角色分配的群体分布式控制方法及装置,用以解决现有技术中由于群体策略扩展性差以及存在维数灾难以致领域知识利用适应性较差、群体系统控制效果不佳的缺陷,实现动态不确定环境下群体无碰撞的协同控制。
本发明提供一种基于角色分配的群体分布式控制方法,包括:将获取的群体中的智能体的观测状态输入至第一策略网络模型中,得到所述第一策略网络模型输出的各智能体的角色类型;将所述智能体的观测状态与所述各智能体的角色类型输入至第二策略网络模型中,得到所述第二策略网络模型输出的对应所述智能体的动作;控制所述智能体执行所述动作;其中,所述第一策略网络模型和所述第二策略网络模型是利用智能体样本数据进行训练得到的,其中所述第二策略网络模型的输入为所述第一策略网络模型的输出。
根据本发明提供的一种基于角色分配的群体分布式控制方法,所述第一策略网络模型,包括:环境特征提取层,基于所述观测状态,利用第一策略感知模块提取环境特征;第一交互特征获取层,基于所述环境特征获取得到的局部交互信息,利用第一策略交互模块获得第一交互特征;角色分析层,基于所述第一交互特征,利用第一策略角色模块和第一策略值函数模块对所述智能体进行角色分析,得到各所述智能体的角色类型。
根据本发明提供的一种基于角色分配的群体分布式控制方法,所述第一交互特征表示为:
其中,表示第一交互特征,Oi表示智能体i的观测状态,表示组成所述第一策略交互模块的全连接神经网络组成的函数,表示环境特征,表示局部交互信息;
根据本发明提供的一种基于角色分配的群体分布式控制方法,所述智能体i的观测状态Oi表示为:
其中,Sj表示感知邻居智能体j的状态,N0(i)表示智能体i在感知半径D0 =2.5范围的邻居智能体个数;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院自动化研究所,未经中国科学院自动化研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110922017.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:装配式建筑钢梁焊后防坠自动缓冲装置
- 下一篇:交互方法、处理设备及存储介质