[发明专利]一种基于强化学习的多智能体容错一致性方法及系统在审

专利信息
申请号: 202111184950.0 申请日: 2021-10-11
公开(公告)号: CN113919495A 公开(公告)日: 2022-01-11
发明(设计)人: 侯健;邱鹏鹏;王方圆 申请(专利权)人: 浙江理工大学
主分类号: G06N3/08 分类号: G06N3/08;G06N3/04;G06F11/07
代理公司: 浙江千克知识产权代理有限公司 33246 代理人: 周希良
地址: 310018 浙江省杭州市*** 国省代码: 浙江;33
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 强化 学习 智能 容错 一致性 方法 系统
【权利要求书】:

1.一种基于强化学习的多智能体容错一致性方法,其特征在于:包括如下步骤:

S1:建立系统网络拓扑,设计奖励函数;

S2:智能体之间交互:根据设计的奖励函数,逐步调整相邻智能体权重,直至正常智能体状态达成一致。

2.如权利要求1所述一种基于强化学习的多智能体容错一致性方法,其特征在于:步骤S1具体如下:由n个智能体组成的网络,标记为1,2,…n;网络关系使用有向图G=(V×E)表示,其中V={1,2,…n}表示智能体集合,用于描述智能体的连接关系;如果智能体i能从智能体j接收到信息,则智能体i有一条从智能体j到智能体i的边,即智能体j是智能体i的邻居节点,智能体i的邻居集合由Ni={j|(j,i)}∈E表示;

整个网络由三种智能体组成,包括正常智能体集合Vn,随机状态值故障智能体集合Vp,常值状态值故障智能体集合Vc,V=Vn∪Vp∪Vc

针对智能体i来说,定义其对邻居智能体j在k时刻的权重为αij,k,在k时刻的状态为xi,k,在k时刻的奖励值为ri,k;其次,智能体i状态与其邻居智能体j的状态集合称为智能体i的强化学习输入状态,简称为输入状态,并用si,k表示,其中再次,在k时刻的智能体i对所有邻居智能体权重集合称为强化学习行为,简称为行为,并用ai,k表示,其中此外,s表示样本轨迹数量,τ表示一个轨迹,γ表示折扣因子,用Rτ表示强化学习奖励,即智能体在一个轨迹内的总奖励值,简称总奖励值,其中

3.如权利要求2所述一种基于强化学习的多智能体容错一致性方法,其特征在于:步骤S2具体如下:

S21,根据权重参数θi随机初始化策略网络

S22,随机初始化所有智能体在k时刻的状态以及对邻居智能体j在k时刻的权重,将总奖励值Rτ初始化为0;

S23,对每一个正常智能体i而言,接收邻居智能体j的状态值,生成输入状态si,k

S24,将输入状态si,k传入到策略网络中得到行为ai,k

S25,通过更新的输入状态si,k和行为ai,k计算智能体i的奖励值ri,k

ri,k:=f(si,k,ai,k)

S26,根据奖励值ri,k和上个轨迹总奖励值Rτ更新当前轨迹的总奖励值:

Rτ←Rτkf(si,k,ai,k)

S27,在有随机噪声影响的情况下,智能体i利用对邻居智能体j的权重值、邻居智能体j的状态值以及自身的状态值更新状态xi,k+1

S28,重复步骤S23至S27,T次之后结束;

S29,对Rτ进行随机梯度下降,并更新策略网络参数:

S30,重复步骤S21至S29,S个回合之后结束;

S31,重复步骤S21至S30,直至正常智能体状态达成一致。

4.根据权利要求1-3任一项所述一种基于强化学习的多智能体容错一致性方法,其特征在于:步骤S2中,故障智能体不需要训练和学习,它们的状态值保持不变或随机发生变化。

5.根据权利要求1-3任一项所述一种基于强化学习的多智能体容错一致性方法,其特征在于:

步骤S1中,智能体节点之间的连接关系需要满足一定的条件:所有正常智能体的拓扑是固定且连通的,即存在一个正常智能体,该智能体到其他所有正常智能体都包含一条有向路径。

6.一种基于强化学习的多智能体容错一致性系统,其特征在于:包括如下模块:

系统网络拓扑建立模块:建立系统网络拓扑,设计奖励函数;

智能体之间交互模块:根据设计的奖励函数,逐步调整相邻智能体权重,直至正常智能体状态达成一致。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江理工大学,未经浙江理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202111184950.0/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top