[发明专利]一种基于强化学习的多智能体容错一致性方法及系统在审

申请号：	202111184950.0	申请日：	2021-10-11
公开（公告）号：	CN113919495A	公开（公告）日：	2022-01-11
发明（设计）人：	侯健;邱鹏鹏;王方圆	申请（专利权）人：	浙江理工大学
主分类号：	G06N3/08	分类号：	G06N3/08;G06N3/04;G06F11/07
代理公司：	浙江千克知识产权代理有限公司 33246	代理人：	周希良
地址：	310018 浙江省杭州市***	国省代码：	浙江;33
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于强化学习智能容错一致性方法系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于强化学习的多智能体容错一致性方法，其特征在于：包括如下步骤：

S1：建立系统网络拓扑，设计奖励函数；

S2：智能体之间交互：根据设计的奖励函数，逐步调整相邻智能体权重，直至正常智能体状态达成一致。

2.如权利要求1所述一种基于强化学习的多智能体容错一致性方法，其特征在于：步骤S1具体如下：由n个智能体组成的网络，标记为1，2，…n；网络关系使用有向图G＝(V×E)表示，其中V＝{1，2，…n}表示智能体集合，用于描述智能体的连接关系；如果智能体i能从智能体j接收到信息，则智能体i有一条从智能体j到智能体i的边，即智能体j是智能体i的邻居节点，智能体i的邻居集合由N_i＝{j|(j，i)}∈E表示；

整个网络由三种智能体组成，包括正常智能体集合Vⁿ，随机状态值故障智能体集合V^p，常值状态值故障智能体集合V^c，V＝Vⁿ∪V^p∪V^c；

针对智能体i来说，定义其对邻居智能体j在k时刻的权重为α_ij，k，在k时刻的状态为x_i，k，在k时刻的奖励值为r_i，k；其次，智能体i状态与其邻居智能体j的状态集合称为智能体i的强化学习输入状态，简称为输入状态，并用s_i，k表示，其中再次，在k时刻的智能体i对所有邻居智能体权重集合称为强化学习行为，简称为行为，并用a_i，k表示，其中此外，s表示样本轨迹数量，τ表示一个轨迹，γ表示折扣因子，用R_τ表示强化学习奖励，即智能体在一个轨迹内的总奖励值，简称总奖励值，其中

3.如权利要求2所述一种基于强化学习的多智能体容错一致性方法，其特征在于：步骤S2具体如下：

S21，根据权重参数θ_i随机初始化策略网络

S22，随机初始化所有智能体在k时刻的状态以及对邻居智能体j在k时刻的权重，将总奖励值R_τ初始化为0；

S23，对每一个正常智能体i而言，接收邻居智能体j的状态值，生成输入状态s_i，k：

S24，将输入状态s_i，k传入到策略网络中得到行为a_i，k：

S25，通过更新的输入状态s_i，k和行为a_i，k计算智能体i的奖励值r_i，k：

r_i，k：＝f(s_i，k，a_i，k)

S26，根据奖励值r_i，k和上个轨迹总奖励值R_τ更新当前轨迹的总奖励值：

R_τ←R_τ+γ^kf(s_i，k，a_i，k)

S27，在有随机噪声影响的情况下，智能体i利用对邻居智能体j的权重值、邻居智能体j的状态值以及自身的状态值更新状态x_i，k+1：

S28，重复步骤S23至S27，T次之后结束；

S29，对R_τ进行随机梯度下降，并更新策略网络参数：