[发明专利]一种面向大规模任务空间的协同多智能体通信方法在审
申请号: | 202110930784.8 | 申请日: | 2021-08-13 |
公开(公告)号: | CN113592079A | 公开(公告)日: | 2021-11-02 |
发明(设计)人: | 邹启杰;胡有坤;秦静;高兵;陈爽;汤宇 | 申请(专利权)人: | 大连大学 |
主分类号: | G06N3/04 | 分类号: | G06N3/04;G06N3/08 |
代理公司: | 大连智高专利事务所(特殊普通合伙) 21235 | 代理人: | 毕进 |
地址: | 116622 辽宁省*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 面向 大规模 任务 空间 协同 智能 通信 方法 | ||
本发明公开了一种面向大规模任务空间的协同多智能体通信方法,具体包括通信阶段和动作选择阶段;所述通信阶段实现过程为:获取当前时刻智能体j的注意力权重,得到该注意力权重对应评分值;对所述评分值进行归一化处理得到权重系数;基于所述权重系数生成通信向量;所述动作选择阶段实现过程为:构建基于长短时记忆LSTM的神经网络,所述神经网络作为每个智能体的独立控制器;训练所述基于长短时记忆LSTM的神经网络;通过训练后的神经网络执行动作选择。训练的时候可以通过通信知道其他智能体的消息、内部状态和行动目的等;在动作选择的时候,每个智能体只用自己的隐藏层状态信息决策,它允许训练每个智能体使其个体奖励最大化,进而提高可扩展性。
技术领域
本发明涉及智能体通信技术领域,具体涉及一种面向大规模任务空间的协同多智能体通信方法。
背景技术
多智能体系统(Multi-agent Systems,MASs)是分布式人工智能研究的一个重要分支,是人工智能的最新发展方向,是人工智能技术一次质的飞跃。如果说模拟人是单智能体的目标,那么模拟人类社会则是多智能体系统的最终目标。在多机器人合作完成任务、交通车辆控制、通信带宽的合理分配等领域广泛应用。强化学习(RL)主要是研究智能体如何通过感知局部和全局状态来选择动作,并不断与动态环境进行交互,从而找到最优策略,实现奖励值最大化。深度学习是一种高效的表征学习,可以发现原始信息中的关键信息。主要原因是神经网络可以处理输入的高维数据并提取有用的表达。多智能体深度强化学习(MDRL)是解决信息协调策略问题的有效方法,主要优势在于它可以将RL扩展到高维的状态和动作空间。
对于大规模的任务空间,智能体之间的通信是高效合作的关键,通过通信,智能体可以交换他们的观察结果,以更好地发现当前的全局状态,了解其他智能体的动作和意图,而智能体借助动态通信可以更有效地协调。然而,传统的通信机制采用简单的信息聚合和广播的方式,在某些情况下缺乏对信息重要性的区分,无法为智能体在决策过程中提供更加有益的消息。也就是说,智能体需要对其他智能体提供消息进行判断,依次划分每条消息的重要程度,进而有目的性的通信,使学习过程更加稳定。在传统的集中式训练范式中,训练时需要一个中央控制器,它帮助智能体训练策略网络。智能体把自己的观测都汇报给中央,中央收集全局信息之后才会做决策。随着智能体数量的增加,输入维度的线性增长和输出空间的指数化增长使得算法无法轻易扩展到大规模任务空间,算法的收敛效果变差甚至无法收敛。
现有技术中公开号为104951898A,名称为一种面向任务的协同多智能体联盟形成方法的专利申请,是一种使用层次分析法AHP构建任务特征向量,针对单个智能体,将其面向同一任务所建立的任务特征向量。但智能体之间缺乏沟通,系统中不存在明确的反馈控制作用。由于智能体之间不是相互独立的,不应该忽视他们之间的影响。公开号为106802564A,名称为一种多智能体系统及其控制方法的专利申请,提出了一种自适应控制器结构,一旦系统中的第一智能体发生错误时不能与第二智能体通信,每个第二智能体上都部署了单个自适应控制器,智能体之间仍然可以进行通信。但当系统规模过大时,庞大的信息量很容易加重第一智能体的负担,进而影响系统运行效率甚至使系统陷入瘫疾。公开号为109617968A,名称为一种多智能体协作系统中智能体间的通信方法的专利申请,使用了注意力机制(attention mechanism)对多智能体协作系统中第一智能体的通信对象进行筛选,从而确定多智能体协作系统中哪些第二智能体作为第一智能体的通信对象,避免了多智能体协作系统中各智能体间通信时过高的通信负荷,降低了通信开销,加强了载有协作消息信号传输的针对性。但是仅仅使用距离来选择通信对象显然是有欠缺的,这样定义在某些场景下是有作用的,但如果在复杂场景中不具有普适性。
发明内容
为了处理在具有许多智能体和高维观察空间的现实世界任务中,集中式控制器变得难以处理状态空间和动作空间爆炸所带来的扩展性差和多智能体之间很难区分有价值信息等问题,本发明提出了一种面向大规模任务空间的协同多智能体通信方法。
为实现上述目的,本申请的技术方案为:一种面向大规模任务空间的协同多智能体通信方法,具体包括通信阶段和动作选择阶段;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于大连大学,未经大连大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110930784.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种气缸式木塑板材码放机械臂
- 下一篇:一种沥青搅拌的环保设备