[发明专利]一种基于深度确定性策略梯度的异构多智能体协同决策方法在审

申请号：	201810397866.9	申请日：	2018-04-28
公开（公告）号：	CN108600379A	公开（公告）日：	2018-09-28
发明（设计）人：	李瑞英;王瑞;胡晓惠;张慧	申请（专利权）人：	中国科学院软件研究所
主分类号：	H04L29/08	分类号：	H04L29/08;H04L12/24
代理公司：	北京科迪生专利代理有限责任公司 11251	代理人：	杨学明;顾炜
地址：	100190 ***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明涉及一种基于深度确定性策略梯度的异构多智能体协同决策方法，属于异构智能无人系统的协同决策领域，包括以下步骤：首先，定义异构多智能体的特征属性和奖惩规则，明确智能体的状态空间和动作空间,构建多智能体进行协同决策的运动环境；然后，基于深度确定性的策略梯度算法，建立进行决策行动的actor模块和进行评判反馈的critic模块，并训练学习模型的参数；利用训练好的模型，得到智能体的状态序列；依据环境中设置的奖惩规则，对智能体的运动状态序列进行态势的评估。本发明可以根据实际需求构建合理的运动环境，通过系统中多智能体间的彼此协同，达到智能感知、策略优化的目的，对我国无人系统领域的发展具有积极的作用。
搜索关键词：	异构多智能体智能体确定性运动环境协同构建智能决策策略优化动作空间决策领域决策行动实际需求特征属性梯度算法系统领域训练学习运动状态智能感知状态空间状态序列评判反馈评估
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种基于深度确定性策略梯度的异构多智能体协同决策方法，其特征在于，包括以下步骤：步骤1：定义异构多智能体的特征属性和奖惩规则，明确智能体的状态空间和动作空间，将每一个智能体抽象为环境中的一个运动节点，构建异构多智能体进行协同决策的运动环境；步骤2：基于深度确定性策略梯度算法,建立进行决策行动的actor模块和评判反馈的critic模块，随机初始化参数；步骤3：多智能体在步骤1构建的运动环境中，自主随机地进行运动探索：各智能体根据当前的状态s，由actor模块得到动作a，并到达下一状态s'；同时,依据奖惩规则计算在当前状态s下采取动作a到达下一状态s'时环境所给予的奖惩回报r，将每一步的<当前状态s，当前动作a，下一步状态s'，奖惩回报r>储存到经验池中；步骤4：根据步骤3经验池中存储的对，对critic模块和actor模块的参数进行训练和学习，同时用新产生的对替换经验池中之前存储的对，重复步骤4，直至满足多智能体协同决策的优化终止条件或最大迭代步数；步骤5：利用训练好的模型，在已知智能体当前状态s的情况下，得到智能体的当前动作a，并到达下一状态s'，重复步骤5，直到完成任务或达到环境的终止条件，得到智能体的状态序列；同时，依据环境设置的奖惩规则，完成智能体运动状态序列的态势评估。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于中国科学院软件研究所，未经中国科学院软件研究所许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201810397866.9/，转载请声明来源钻瓜专利网。

上一篇：一种文件下载方法、装置、终端和存储介质
下一篇：帐篷医院应急指挥信息化系统

同类专利

专利分类

H 电学

H04 电通信技术
H04L 数字信息的传输，例如电报通信
H04L29-00 H04L 1/00至H04L 27/00单个组中不包含的装置、设备、电路和系统
H04L29-02 .通信控制；通信处理
H04L29-12 .以数据终端为特征的
H04L29-14 .故障的应对措施
H04L29-04 ..用于多条通信线路的
H04L29-06 ..以协议为特征的

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于深度确定性策略梯度的异构多智能体协同决策方法在审

专利文献下载