[发明专利]一种基于反馈的混合多智能体协同控制方法有效
申请号: | 201910410370.5 | 申请日: | 2019-05-17 |
公开(公告)号: | CN110109358B | 公开(公告)日: | 2020-06-23 |
发明(设计)人: | 黄利伟;涂铮铮;柏晓祉;屈鸿;舒杨 | 申请(专利权)人: | 电子科技大学 |
主分类号: | G05B13/04 | 分类号: | G05B13/04;G06N3/12;G06N3/02 |
代理公司: | 成都东唐智宏专利代理事务所(普通合伙) 51261 | 代理人: | 罗言刚 |
地址: | 611731 四川省成都市高新区(*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 反馈 混合 智能 体协 控制 方法 | ||
1.一种基于反馈的混合多智能体协同控制方法,其特征在于:包括以下步骤
步骤1:针对智能体系统中的各个智能体,均构建结合遗传算法和神经网络的策略选择网络;
步骤2:对所述策略选择网络中的遗传因子进行优化,判断是否满足预设条件A;
所述预设条件A为:达到优化的预设上限或整体适应度值达到预设值;
所述步骤2具体为:
步骤21:设定所述遗传算法参数,初始化种群集,所述种群集中种群个数为智能体系统中智能体个数,每个种群均包含若干个体;
步骤22:将所述个体观测到的环境信息输入所述策略选择网络,输出该个体应对该环境信息产生的动作;
步骤23:根据所述动作,计算各个个体的适应度,根据所述适应度选出各个种群的种群代表;
步骤24:计算种群代表的整体适应度,判断所述整体适应度是否达到标准,若达到,结束遗传因子的优化,跳转至步骤3,否则跳转至步骤25;
步骤25:分别计算各个种群代表的贡献值,对贡献值最小的k个代表所在的种群,重新选取代表,并计算整体适应度,判断所述整体适应度是否达到标准,若达到,结束遗传因子的优化,跳转至步骤3,否则跳转至步骤26;
步骤26:判断进化次数是否到达上限,若到达,则结束遗传因子的优化,跳转至步骤3;否则根据所述整体适应度更新种群代表,并对贡献值最小的k个代表所在的种群,跳转至步骤23进行进化;
步骤3:将遗传因子作为强化学习模块的参数,利用所述强化学习模块对智能体进行训练,判断是否满足预设条件B;
所述预设条件B为:计算整体适应度值达到预设值或达到最大迭代次数;
所述步骤3具体为:
步骤31:初始化所述强化学习模块参数,每个智能体均包括自身Q网络和目标Q网络;
步骤32:利用遗传因子初始化自身Q网络Qi(s,a;θi)中的θi,利用所述自身Q网络初始化目标Q网络,利用最优个体的遗传因子初始化交流Q网络Qc(s,a;θc)中的θc,其中s表示智能体的状态,a表示智能体的动作;
步骤33:对每个智能体,以1-ε的概率使用所述交流Q网络Qc(s,a;θc)作为决策网络,否则使用自身Q网络Qi(s,a;θi)作为决策Q网络;
步骤34:从所述决策Q网络中选择一个动作a,实现动作与环境的交互,根据回报函数得到回报r和从环境中得到的新状态s′,并将与环境交互得到的任务目标信息传递至所述交流Q网络;
步骤35:将(s,a,r,s′)作为经验储存至经验池中,当经验池的容量达到阈值,从所述经验池中随机抽取经验作为样本,进行随机梯度下降得到残差值,利用损失函数将残差值与目标Q网络结合,进行最小化迭代,得到新的Q值;
步骤36:利用所述Q值优化所述自身Q网络的参数,利用优化后的自身Q网络间隔C步长后更新所述目标Q网络;
步骤37:将所述交流Q网络中的任务目标信息下发至各个智能体;
步骤38:判断是否满足预设条件B,若满足,则跳转至步骤4,否则更新遗传因子并跳转至步骤33;
步骤4:判断步骤2-3的迭代次数是否到达上限,若达到上限,则结束流程,否则更新遗传因子并跳转至步骤2。
2.根据权利要求1所述的一种基于反馈的混合多智能体协同控制方法,其特征在于:所述步骤1中,所述策略选择网络为:将遗传算法的遗传因子作为所述神经网络的权值;
所述策略选择网络的输入为智能体观测到的环境信息;
所述策略选择网络的输出为该智能体应对该环境信息产生的动作。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于电子科技大学,未经电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910410370.5/1.html,转载请声明来源钻瓜专利网。