[发明专利]一种基于深度确定性策略梯度的异构多智能体协同决策方法在审
申请号: | 201810397866.9 | 申请日: | 2018-04-28 |
公开(公告)号: | CN108600379A | 公开(公告)日: | 2018-09-28 |
发明(设计)人: | 李瑞英;王瑞;胡晓惠;张慧 | 申请(专利权)人: | 中国科学院软件研究所 |
主分类号: | H04L29/08 | 分类号: | H04L29/08;H04L12/24 |
代理公司: | 北京科迪生专利代理有限责任公司 11251 | 代理人: | 杨学明;顾炜 |
地址: | 100190 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 异构 多智能体 智能体 确定性 运动环境 协同 构建 智能 决策 策略优化 动作空间 决策领域 决策行动 实际需求 特征属性 梯度算法 系统领域 训练学习 运动状态 智能感知 状态空间 状态序列 评判 反馈 评估 | ||
1.一种基于深度确定性策略梯度的异构多智能体协同决策方法,其特征在于,包括以下步骤:
步骤1:定义异构多智能体的特征属性和奖惩规则,明确智能体的状态空间和动作空间,将每一个智能体抽象为环境中的一个运动节点,构建异构多智能体进行协同决策的运动环境;
步骤2:基于深度确定性策略梯度算法,建立进行决策行动的actor模块和评判反馈的critic模块,随机初始化参数;
步骤3:多智能体在步骤1构建的运动环境中,自主随机地进行运动探索:各智能体根据当前的状态s,由actor模块得到动作a,并到达下一状态s';同时,依据奖惩规则计算在当前状态s下采取动作a到达下一状态s'时环境所给予的奖惩回报r,将每一步的<当前状态s,当前动作a,下一步状态s',奖惩回报r>储存到经验池中;
步骤4:根据步骤3经验池中存储的<s,a,s',r>对,对critic模块和actor模块的参数进行训练和学习,同时用新产生的<s,a,s',r>对替换经验池中之前存储的<s,a,s',r>对,重复步骤4,直至满足多智能体协同决策的优化终止条件或最大迭代步数;
步骤5:利用训练好的模型,在已知智能体当前状态s的情况下,得到智能体的当前动作a,并到达下一状态s',重复步骤5,直到完成任务或达到环境的终止条件,得到智能体的状态序列;同时,依据环境设置的奖惩规则,完成智能体运动状态序列的态势评估。
2.根据权利要求1所述的基于深度确定性策略梯度的异构多智能体协同决策方法,其特征在于,所述步骤1的具体实现子步骤包括:
步骤1.1:根据异构智能体的特征属性,将每个智能体抽象为环境中的一个运动节点;
步骤1.2:设定智能体的动作:[下一步的运动方向];设定智能体的状态:[自身的位置坐标x、y,目标的位置坐标x、y,自身位置与目标位置的方位角θ];
步骤1.3:设置环境中的奖惩规则;
步骤1.4:多智能体抽象的运动节点,智能体的动作空间和状态空间,环境中的奖惩规则共同构建了一个异构多智能体进行协同决策的运动环境。
3.根据权利要求1所述的基于深度确定性策略梯度的异构多智能体协同决策方法,其特征在于,所述步骤2的具体实现子步骤如下:
步骤2.1:设立一个单独的经验池存储各智能体的状态-动作对<当前状态s,当前动作a,下一步状态s',回报r>;
步骤2.2:建立actor模块,将各智能体的状态s作为网络的输入,经过若干中间层得到各智能体的下一步输出动作a;同时,保留一个actor网络结构副本,该actor网络结构副本只在一定的时间步长才进行参数的更新;
步骤2.3:建立critic模块,将智能体的状态s和动作a作为网络的输入,经过若干中间层输出为动作-价值Q;同时,保留一个critic网络结构副本,该critic网络结构副本同样在一定的时间步长才进行参数的更新。
4.根据权利要求1所述的基于深度确定性策略梯度的异构多智能体协同决策方法,其特征在于,所述步骤4具体实现子步骤如下:
步骤4.1:critic模块包含了两个结构完全相同、参数更新时间不一致的网络模型,将即时更新参数的网络模型Q称之为在线critic,其参数表示为θQ;将延迟更新的网络模型Q'称之为目标critic,其参数表示为θQ';
对于目标critic,根据经验池<当前状态s,当前动作a,下一步状态s',回报r>,在当前状态s下采取动作a,到达下一状态s',并得到即时回报r;利用目标actor网络估计得到下一状态s'时采取的下一动作a',计算目标动作-价值函数可表示为Q'(s',a'|θQ'),则由Q'可以得出在当前状态s下采取动作a的估计期望回报y:
y=r+γQ'(s',a'|θQ')
其中,γ(γ∈[0,1])表示一个衰减因子;
对于在线critic,根据经验池中的当前状态s和当前动作a,计算得到动作-价值Q,即在线期望回报Q(s,a|θQ);
估计期望回报y与在线期望回报Q(s,a|θQ)的均方误差计算公式为:
利用误差L可以完成对在线critic网络的参数更新;
目标critic是在线critic的延迟更新,目标critic的参数更新公式为:
θQ'=τθQ+(1-τ)θQ'
其中,τ是一个平衡因子;
步骤4.2:actor模块包含两个结构完全相同、参数更新时间不一致的网络模型,及时更新参数的网络模型μ为在线actor,其参数表示为θμ;延迟更新参数的网络模型μ'为目标actor,其参数表示为θμ';
对于目标actor,根据经验池<当前状态s,当前动作a,下一步状态s',回报r>中的下一状态s',计算得到s'的下一动作a',即μ'(s'|θμ'),用于计算目标critic的目标动作-价值函数Q'(s',a'|θQ');
对于在线actor,根据经验池中的当前状态s,计算实际的当前动作,即μ(s|θμ);通过当前状态s的实际动作μ(s|θμ)和在线critic输出的Q(s,a|θQ)联合更新在线actor网络的参数,其梯度下降公式为:
目标actor是在线actor的延迟更新,目标actor的参数更新公式为:
θμ'=τθμ+(1-τ)θμ'
其中,τ是一个平衡因子;
步骤4.3:训练critic网络和actor网络的模型参数,并用新产生的<s,a,s',r>对替换经验池中之前存储的<s,a,s',r>对;重复步骤4,直至满足多智能体协同决策的优化终止条件或达到最大迭代步数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院软件研究所,未经中国科学院软件研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810397866.9/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种文件下载方法、装置、终端和存储介质
- 下一篇:帐篷医院应急指挥信息化系统