[发明专利]一种面向大规模任务空间的协同多智能体通信方法在审

专利信息
申请号: 202110930784.8 申请日: 2021-08-13
公开(公告)号: CN113592079A 公开(公告)日: 2021-11-02
发明(设计)人: 邹启杰;胡有坤;秦静;高兵;陈爽;汤宇 申请(专利权)人: 大连大学
主分类号: G06N3/04 分类号: G06N3/04;G06N3/08
代理公司: 大连智高专利事务所(特殊普通合伙) 21235 代理人: 毕进
地址: 116622 辽宁省*** 国省代码: 辽宁;21
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 面向 大规模 任务 空间 协同 智能 通信 方法
【权利要求书】:

1.一种面向大规模任务空间的协同多智能体通信方法,具体包括通信阶段和动作选择阶段;其特征在于:

所述通信阶段实现过程为:

获取当前时刻智能体j的注意力权重,得到该注意力权重对应评分值;

对所述评分值进行归一化处理得到权重系数;

基于所述权重系数生成通信向量;

所述动作选择阶段实现过程为:

构建基于长短时记忆LSTM的神经网络,所述神经网络作为每个智能体的独立控制器;

训练所述基于长短时记忆LSTM的神经网络;

通过训练后的神经网络执行动作选择。

2.根据权利要求1所述一种面向大规模任务空间的协同多智能体通信方法,其特征在于,所述注意力权重对应评分值的获取方式为:将当前时刻智能体j的隐藏层状态向量作为查询向量,与当前时刻其他智能体传递的隐藏层状态向量分别做内积运算,得到智能体j评分值:

3.根据权利要求2所述一种面向大规模任务空间的协同多智能体通信方法,其特征在于,对所述评分值进行归一化处理得到权重系数,具体为:

通过归一化处理得到相似度大小的权重系数系数的大小同时反映出内容的重要性。

4.根据权利要求3所述一种面向大规模任务空间的协同多智能体通信方法,其特征在于,基于所述权重系数生成通信向量,具体为:智能体j在时间t时的通信向量生成公式为:

其中,是智能体j在时间t时其他智能体隐藏层状态向量加权求和,在通信过程中,智能体j试图了解从其他智能体那里收到的状态信息。

5.根据权利要求1所述一种面向大规模任务空间的协同多智能体通信方法,其特征在于,构建基于长短时记忆LSTM的神经网络,具体为:

通过输入信息定义神经网络的门值和候选值函数;

更新下一状态的候选值

再更新智能体j的自身隐藏层状态

6.根据权利要求5所述一种面向大规模任务空间的协同多智能体通信方法,其特征在于,通过输入信息定义神经网络的门值和候选值函数,具体为:门值Γu、Γf、Γo和候选值计算公式分别为:

为候选参数,wu、bu为更新参数,wf、bf为遗忘参数,wo、bo输出参数,上述参数在每个长短时记忆LSTM单元中是共享的;δ代表sigmoid函数,它使门值非常接近0或1;在每个时间步骤中,通过激活函数tanh,当前输入的观察值其他智能体隐藏层状态向量融合值和从上一个状态传下来的智能体j自身隐藏层状态向量拼接和训练得到候选值更新门Γu、遗忘门Γf和输出门Γo是为了调整流经神经网络的值。

7.根据权利要求5所述一种面向大规模任务空间的协同多智能体通信方法,其特征在于,更新下一状态的候选值具体为:使用更新门Γu和遗忘门Γf更新下一状态的候选值

具体来说,作为遗忘门Γf,控制前一个状态的候选值哪些信息应该保留,哪些应该遗忘;作为更新门Γu,选择和记忆这个阶段的输入观察值和融合值将上述两个结果相加,意味着当前状态的部分信息被删除,新输入的部分信息被添加,从而得到下一个状态的候选值

8.根据权利要求5所述一种面向大规模任务空间的协同多智能体通信方法,其特征在于,再更新智能体j的自身隐藏层状态具体为:

其中,候选值被激活函数缩放,并由输出门Γo控制。

9.根据权利要求1所述一种面向大规模任务空间的协同多智能体通信方法,其特征在于,训练所述基于长短时记忆LSTM的神经网络,具体为:智能体j在时间t时与环境互动,从环境中获得个体观察值个体动作值和个体奖励值训练阶段,每个智能体需要一个独立的控制器,对于智能体j,根据收到的其他智能体的隐藏层状态向量进行有目的的融合,以产生一个通信向量智能体的隐藏层状态向量和通信向量被发送到智能体j的独立控制器中;通过注意力的通信机制,不同的智能体交换关于他们的观察值、动作值和意图信息以稳定训练过程;训练结束后,智能体根据自己的隐藏层状态向量做出决定;而神经网络则输出一个概率分布第j个智能体的动作策略公式如下:

为了评价策略π的总体性能指标,将其表示为J(π):

其中,是在策略参数θj下每个序列存在的概率;

为了优化策略π,最大化奖励沿着梯度更新策略参数θj,使其达到最优:

其中α是学习率,总体性能指标是通过以下梯度的上升来更新:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于大连大学,未经大连大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110930784.8/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top