[发明专利]基于角色分配的群体分布式控制方法及装置有效
申请号: | 202110922017.2 | 申请日: | 2021-08-12 |
公开(公告)号: | CN113391556B | 公开(公告)日: | 2021-12-07 |
发明(设计)人: | 丘腾海;张天乐;蒲志强;刘振;朱金营;易建强;常红星 | 申请(专利权)人: | 中国科学院自动化研究所 |
主分类号: | G05B13/04 | 分类号: | G05B13/04 |
代理公司: | 北京路浩知识产权代理有限公司 11002 | 代理人: | 吴刚 |
地址: | 100190 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 角色 分配 群体 分布式 控制 方法 装置 | ||
1.一种基于角色分配的群体分布式控制方法,其特征在于,包括:
将获取的群体中的智能体的观测状态输入至第一策略网络模型中,得到所述第一策略网络模型输出的各智能体的角色类型;
将所述智能体的观测状态与所述各智能体的角色类型输入至第二策略网络模型中,得到所述第二策略网络模型输出的对应所述智能体的动作;
控制所述智能体执行所述动作;
其中,所述第一策略网络模型和所述第二策略网络模型是利用智能体样本数据进行训练得到的,其中所述第二策略网络模型的输入为所述第一策略网络模型的输出;
所述第一策略网络模型,包括:
环境特征提取层,基于所述观测状态,利用第一策略感知模块提取环境特征;
第一交互特征获取层,基于所述环境特征获取得到的局部交互信息,利用第一策略交互模块获得第一交互特征;
角色分析层,基于所述第一交互特征,利用第一策略角色模块和第一策略值函数模块对所述智能体进行角色分析,得到各所述智能体的角色类型;所述各智能体的角色类型表示为:
其中,ρi表示所述智能体i的角色类型,ρ表示智能体i的可选角色,表示组成所述第一策略角色模块的全连接神经网络组成的函数,表示组成所述第一策略值函数模块的全连接神经网络组成的函数,表示第一交互特征;
所述第二策略网络模型,包括:
状态特征提取层,基于所述智能体的观测状态,利用第二策略感知模块将所述智能体的观测状态与所述智能体的角色类型结合,获取所述智能体的状态特征;
第二交互特征获取层,基于所述状态特征和第二网络交互信息,利用第二策略交互模块获得第二交互特征;
动作预测层,基于所述第二交互特征,利用第二策略值函数模块和第二策略模块对所述智能体进行状态分析,得到所述智能体对应的动作;所述动作表示为:
其中,αi表示所述智能体i的动作,α表示智能体i的可选动作,表示组成所述第二策略模块的全连接神经网络组成的函数,表示组成所述第二策略值函数模块的全连接神经网络组成的函数,表示第二交互特征。
2.根据权利要求1所述的基于角色分配的群体分布式控制方法,其特征在于,所述第一交互特征表示为:
其中,表示第一交互特征,Oi表示智能体i的观测状态,表示组成所述第一策略交互模块的全连接神经网络组成的函数,表示环境特征,表示局部交互信息。
3.根据权利要求1所述的基于角色分配的群体分布式控制方法,其特征在于,所述智能体i的观测状态Oi表示为:
其中,Sj表示感知邻居智能体j的状态,N0(i)表示智能体i在感知半径D0 =2.5范围的邻居智能体个数;
所述局部交互信息表示为:
其中,Nc(i)表示智能体i在通信半径Dc =3范围内的邻居智能体个数,i表示第i个智能体,i=1,2,…,n,n表示群体中智能体的总数,表示通信邻居智能体j的第一交互特征。
4.根据权利要求1所述的基于角色分配的群体分布式控制方法,其特征在于,所述状态特征表示为:
其中,表示智能体的状态特征,f表示多层全连接神经网络函数,表示组成所述第二策略感知模块的全连接神经网络组成的函数,表示智能体i的角色类型。
5.根据权利要求1所述的基于角色分配的群体分布式控制方法,其特征在于,所述第二交互特征表示为:
其中,表示第二交互特征,表示组成所述第二策略交互模块的全连接神经网络组成的函数,表示环境特征,表示第二网络交互信息。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院自动化研究所,未经中国科学院自动化研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110922017.2/1.html,转载请声明来源钻瓜专利网。
- 上一篇:装配式建筑钢梁焊后防坠自动缓冲装置
- 下一篇:交互方法、处理设备及存储介质