[发明专利]一种处理通信延迟的多智能体强化学习方法在审
申请号: | 202310571611.0 | 申请日: | 2023-05-21 |
公开(公告)号: | CN116595373A | 公开(公告)日: | 2023-08-15 |
发明(设计)人: | 曹向辉;梅建国 | 申请(专利权)人: | 东南大学 |
主分类号: | G06F18/214 | 分类号: | G06F18/214;G06N3/0442;G06N3/08 |
代理公司: | 南京众联专利代理有限公司 32206 | 代理人: | 杜静静 |
地址: | 210096 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 处理 通信 延迟 智能 强化 学习方法 | ||
1.一种处理通信延迟的多智能体强化学习方法,该学习方法包括以下步骤:
S1.初始化神经网络优化器梯度以及经验回放池
S2.构建任务环境,随机初始化所有智能体的位置以及对应的通信缓存池
S3.智能体根据自身对与环境的局部观测获得局部观测状态;
S4.智能体通过通信内容生成网络生成包含隐藏特征的通信内容,再将通信内容通过广播的形式发送给其他队友;
S5.智能体根据彼此之间的距离确定实时通信队友集合以及延迟通信队友集合;
S6.基于实时通信队友集合以及延迟通信队友集合确定实时通信信息以及延迟通信信息;
S7.基于随机确定的延迟跳数,延迟信息经过多跳延迟后在未来时刻被指定智能体接收;
S8.智能体用通信缓存池中的信息代替当前时刻的延迟信息;
S9.智能体根据当前接收到的信息以及延迟信息的代替信息更新通信缓存池;
S10.智能体接收来自过去的延迟信息,忽视其中的过时信息并处理有效的延迟信息;
S11.智能体通过通信特征提取网络整合所有通信信息;
S12.智能体通过双重注意力网络针对整合信息计算通信信息权重;
S13.智能体根据整合的信息以及通信信息权重计算动作策略以及动作策略价值函数;
S14.智能体执行动作与环境交互,并获得相应的奖励和下一状态的局部观测状态;
S15.将经验保存至经验回放池
S16.重复步骤S3-S15,直至达到单次训练回合最大次数或所有智能体完成任务;
S17.使用经验回放池中的训练样本计算损失函数梯度,并使用神经网络优化器对整个网络进行优化;
S18.重复步骤S2-S17不断优化网络,直至网络收敛或达到最大训练轮次。
2.如权利要求1所述的一种处理通信延迟的多智能体强化学习方法,其特征在于,所述S1中,神经网络优化器梯度初始化表示为:dθ=0,dφ=0,其中θ,φ分别是动作策略网络和价值网络的待学习参数;
所述S3中,在时刻t,环境处于状态St,智能体的局部观测为其中表示由N个智能体构成的智能体集合。
3.如权利要求2所述的一种处理通信延迟的多智能体强化学习方法,其特征在于,所述S4中,采用多层感知机(Multi-Layer Perceptron,MLP)作为通信内容生成网络,由其生成的包含隐藏特征的通信内容为
所述S5中,通过比较智能体间的实际距离与预定义的实时通信范围rc,以确定智能体间的通信是否存在延迟,从而确定实时通信队友集合以及延迟通信队友集合。
4.如权利要求3所述的一种处理通信延迟的多智能体强化学习方法,其特征在于,所述S5中,任意智能体的实时通信队友集合Ci和延迟通信队友集合Di可以分别表示为:
其中用于表示智能体i与智能体j之间的距离;
所述S6中,任意智能体于时刻t接收来自实时通信队友n的实时信息,同时缺失来自于延迟通信队友n′的延迟信息,两种信息可以表示为:
5.如权利要求4所述的一种处理通信延迟的多智能体强化学习方法,其特征在于,所述S7中,任意智能体于时刻t所缺失的延迟信息的延迟跳数由一个[1,Tdrlay]范围内的随机数决定:
其中Tdelay表示通信过程中存在的最大通信延迟;
所述S8中,任意智能体于时刻t采用通信缓存池中保存的对应智能体的通信信息代替所缺失的延迟信息
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东南大学,未经东南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310571611.0/1.html,转载请声明来源钻瓜专利网。