[发明专利]一种基于课程学习的多智能体深度确定性策略梯度方法在审

申请号：	202110798780.9	申请日：	2021-07-15
公开（公告）号：	CN113449458A	公开（公告）日：	2021-09-28
发明（设计）人：	黄梦醒;冯子凯;吴迪;毋媛媛;冯思玲;张宏瑞;帅文轩;施之羿;于睿华	申请（专利权）人：	海南大学
主分类号：	G06F30/25	分类号：	G06F30/25;G06F30/27;G06N3/00;G06N20/00;G06F111/04
代理公司：	海南汉普知识产权代理有限公司 46003	代理人：	麦海玲
地址：	570100 海***	国省代码：	海南;46
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明提供一种基于课程学习的多智能体深度确定性策略梯度方法，将课程学习与强化学习结合在一起，在通过经验回放池采样时，根据课程标准复杂度从经验回放池中按照优先权重采样数据，然后采用基于Adam优化器的深度确定性策略梯度方法对每个智能体进行训练，并更新策略网络、策略目标网络、评价网络以及评价目标网络，当多智能体在环境内动作的下一个状态不是终止状态时，对课程标准进行更新，根据更加复杂的课程重复进行迭代计算，课程标准中包含的优先标准函数反映样本的采样优先权重，重复采样惩罚考虑重复采样对样本多样性的影响，冗余信息惩罚可以降低智能体之间交互的信息冗余量，与其他算法相比，本发明提高了算法的收敛效率和最终奖励。
搜索关键词：	一种基于课程学习智能深度确定性策略梯度方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

暂无信息

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于海南大学，未经海南大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/202110798780.9/，转载请声明来源钻瓜专利网。

上一篇：一种具有变刚度功能的人体上肢康复训练装置
下一篇：一种基于知识蒸馏的多模小目标检测方法

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于课程学习的多智能体深度确定性策略梯度方法在审

专利文献下载