首页在售求购查询申请展会资讯专利榜企服商城升级VIP

立即登录免费注册

在售专利
求购专利
查询专利
新闻资讯
技术展会
招商加盟
专利榜

本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247

本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247

[发明专利]一种基于反馈的混合多智能体协同控制方法有效

申请号：	201910410370.5	申请日：	2019-05-17
公开（公告）号：	CN110109358B	公开（公告）日：	2020-06-23
发明（设计）人：	黄利伟;涂铮铮;柏晓祉;屈鸿;舒杨	申请（专利权）人：	电子科技大学
主分类号：	G05B13/04	分类号：	G05B13/04;G06N3/12;G06N3/02
代理公司：	成都东唐智宏专利代理事务所(普通合伙) 51261	代理人：	罗言刚
地址：	611731 四川省成都市高新区(***	国省代码：	四川;51
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于反馈混合智能体协控制方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于反馈的混合多智能体协同控制方法，其特征在于：包括以下步骤

步骤1：针对智能体系统中的各个智能体，均构建结合遗传算法和神经网络的策略选择网络；

步骤2：对所述策略选择网络中的遗传因子进行优化，判断是否满足预设条件A；

所述预设条件A为：达到优化的预设上限或整体适应度值达到预设值；

所述步骤2具体为：

步骤21：设定所述遗传算法参数，初始化种群集，所述种群集中种群个数为智能体系统中智能体个数，每个种群均包含若干个体；

步骤22：将所述个体观测到的环境信息输入所述策略选择网络，输出该个体应对该环境信息产生的动作；

步骤23：根据所述动作，计算各个个体的适应度，根据所述适应度选出各个种群的种群代表；

步骤24：计算种群代表的整体适应度，判断所述整体适应度是否达到标准，若达到，结束遗传因子的优化，跳转至步骤3，否则跳转至步骤25；

步骤25：分别计算各个种群代表的贡献值，对贡献值最小的k个代表所在的种群，重新选取代表，并计算整体适应度，判断所述整体适应度是否达到标准，若达到，结束遗传因子的优化，跳转至步骤3，否则跳转至步骤26；

步骤26：判断进化次数是否到达上限，若到达，则结束遗传因子的优化，跳转至步骤3；否则根据所述整体适应度更新种群代表，并对贡献值最小的k个代表所在的种群，跳转至步骤23进行进化；

步骤3：将遗传因子作为强化学习模块的参数，利用所述强化学习模块对智能体进行训练，判断是否满足预设条件B；

所述预设条件B为：计算整体适应度值达到预设值或达到最大迭代次数；

所述步骤3具体为：

步骤31：初始化所述强化学习模块参数，每个智能体均包括自身Q网络和目标Q网络；

步骤32：利用遗传因子初始化自身Q网络Q_i(s，a；θ_i)中的θ_i，利用所述自身Q网络初始化目标Q网络，利用最优个体的遗传因子初始化交流Q网络Q_c(s，a；θ_c)中的θ_c，其中s表示智能体的状态，a表示智能体的动作；

步骤33：对每个智能体，以1-ε的概率使用所述交流Q网络Q_c(s，a；θ_c)作为决策网络，否则使用自身Q网络Q_i(s，a；θ_i)作为决策Q网络；

步骤34：从所述决策Q网络中选择一个动作a，实现动作与环境的交互，根据回报函数得到回报r和从环境中得到的新状态s′，并将与环境交互得到的任务目标信息传递至所述交流Q网络；

步骤35：将(s，a，r，s′)作为经验储存至经验池中，当经验池的容量达到阈值，从所述经验池中随机抽取经验作为样本，进行随机梯度下降得到残差值，利用损失函数将残差值与目标Q网络结合，进行最小化迭代，得到新的Q值；

步骤36：利用所述Q值优化所述自身Q网络的参数，利用优化后的自身Q网络间隔C步长后更新所述目标Q网络；

步骤37：将所述交流Q网络中的任务目标信息下发至各个智能体；

步骤38：判断是否满足预设条件B，若满足，则跳转至步骤4，否则更新遗传因子并跳转至步骤33；

步骤4：判断步骤2-3的迭代次数是否到达上限，若达到上限，则结束流程，否则更新遗传因子并跳转至步骤2。

2.根据权利要求1所述的一种基于反馈的混合多智能体协同控制方法，其特征在于：所述步骤1中，所述策略选择网络为：将遗传算法的遗传因子作为所述神经网络的权值；

所述策略选择网络的输入为智能体观测到的环境信息；

所述策略选择网络的输出为该智能体应对该环境信息产生的动作。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于电子科技大学，未经电子科技大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201910410370.5/1.html，转载请声明来源钻瓜专利网。

上一篇：针对非标准型非线性航空器的半全局自适应控制方法
下一篇：一种海洋石油井控装备的安全完整性水平评估方法

同类专利

专利分类

G05 控制；调节
G05B 一般的控制或调节系统；这种系统的功能单元；用于这种系统或单元的监视或测试装置
G05B13-00 自适应控制系统，即系统按照一些预定的准则自动调整自己使之具有最佳性能的系统
G05B13-02 .电的
G05B13-04 ..包括使用模型或模拟器的

免登录下载普通用户下载升级VIP会员，免费下载

友情链接：交换友情链接需要网站权重大于4，网站收录10W以上，如符合条件，请联系QQ：。

关于我们寻求报道投稿须知广告合作版权声明网站地图友情链接企业标识联系我们

在线咨询

周一至周五 9:00-18:00

版权所有http://www.vipzhuanli.com/公布日期

咨询在线客服

咨询在线客服

tel code back_top