[发明专利]一种基于强化学习的多智能体容错一致性方法及系统在审
申请号: | 202111184950.0 | 申请日: | 2021-10-11 |
公开(公告)号: | CN113919495A | 公开(公告)日: | 2022-01-11 |
发明(设计)人: | 侯健;邱鹏鹏;王方圆 | 申请(专利权)人: | 浙江理工大学 |
主分类号: | G06N3/08 | 分类号: | G06N3/08;G06N3/04;G06F11/07 |
代理公司: | 浙江千克知识产权代理有限公司 33246 | 代理人: | 周希良 |
地址: | 310018 浙江省杭州市*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 强化 学习 智能 容错 一致性 方法 系统 | ||
1.一种基于强化学习的多智能体容错一致性方法,其特征在于:包括如下步骤:
S1:建立系统网络拓扑,设计奖励函数;
S2:智能体之间交互:根据设计的奖励函数,逐步调整相邻智能体权重,直至正常智能体状态达成一致。
2.如权利要求1所述一种基于强化学习的多智能体容错一致性方法,其特征在于:步骤S1具体如下:由n个智能体组成的网络,标记为1,2,…n;网络关系使用有向图G=(V×E)表示,其中V={1,2,…n}表示智能体集合,用于描述智能体的连接关系;如果智能体i能从智能体j接收到信息,则智能体i有一条从智能体j到智能体i的边,即智能体j是智能体i的邻居节点,智能体i的邻居集合由Ni={j|(j,i)}∈E表示;
整个网络由三种智能体组成,包括正常智能体集合Vn,随机状态值故障智能体集合Vp,常值状态值故障智能体集合Vc,V=Vn∪Vp∪Vc;
针对智能体i来说,定义其对邻居智能体j在k时刻的权重为αij,k,在k时刻的状态为xi,k,在k时刻的奖励值为ri,k;其次,智能体i状态与其邻居智能体j的状态集合称为智能体i的强化学习输入状态,简称为输入状态,并用si,k表示,其中再次,在k时刻的智能体i对所有邻居智能体权重集合称为强化学习行为,简称为行为,并用ai,k表示,其中此外,s表示样本轨迹数量,τ表示一个轨迹,γ表示折扣因子,用Rτ表示强化学习奖励,即智能体在一个轨迹内的总奖励值,简称总奖励值,其中
3.如权利要求2所述一种基于强化学习的多智能体容错一致性方法,其特征在于:步骤S2具体如下:
S21,根据权重参数θi随机初始化策略网络
S22,随机初始化所有智能体在k时刻的状态以及对邻居智能体j在k时刻的权重,将总奖励值Rτ初始化为0;
S23,对每一个正常智能体i而言,接收邻居智能体j的状态值,生成输入状态si,k:
S24,将输入状态si,k传入到策略网络中得到行为ai,k:
S25,通过更新的输入状态si,k和行为ai,k计算智能体i的奖励值ri,k:
ri,k:=f(si,k,ai,k)
S26,根据奖励值ri,k和上个轨迹总奖励值Rτ更新当前轨迹的总奖励值:
Rτ←Rτ+γkf(si,k,ai,k)
S27,在有随机噪声影响的情况下,智能体i利用对邻居智能体j的权重值、邻居智能体j的状态值以及自身的状态值更新状态xi,k+1:
S28,重复步骤S23至S27,T次之后结束;
S29,对Rτ进行随机梯度下降,并更新策略网络参数:
S30,重复步骤S21至S29,S个回合之后结束;
S31,重复步骤S21至S30,直至正常智能体状态达成一致。
4.根据权利要求1-3任一项所述一种基于强化学习的多智能体容错一致性方法,其特征在于:步骤S2中,故障智能体不需要训练和学习,它们的状态值保持不变或随机发生变化。
5.根据权利要求1-3任一项所述一种基于强化学习的多智能体容错一致性方法,其特征在于:
步骤S1中,智能体节点之间的连接关系需要满足一定的条件:所有正常智能体的拓扑是固定且连通的,即存在一个正常智能体,该智能体到其他所有正常智能体都包含一条有向路径。
6.一种基于强化学习的多智能体容错一致性系统,其特征在于:包括如下模块:
系统网络拓扑建立模块:建立系统网络拓扑,设计奖励函数;
智能体之间交互模块:根据设计的奖励函数,逐步调整相邻智能体权重,直至正常智能体状态达成一致。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江理工大学,未经浙江理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111184950.0/1.html,转载请声明来源钻瓜专利网。