[发明专利]一种基于课程学习的多智能体深度确定性策略梯度方法在审
申请号: | 202110798780.9 | 申请日: | 2021-07-15 |
公开(公告)号: | CN113449458A | 公开(公告)日: | 2021-09-28 |
发明(设计)人: | 黄梦醒;冯子凯;吴迪;毋媛媛;冯思玲;张宏瑞;帅文轩;施之羿;于睿华 | 申请(专利权)人: | 海南大学 |
主分类号: | G06F30/25 | 分类号: | G06F30/25;G06F30/27;G06N3/00;G06N20/00;G06F111/04 |
代理公司: | 海南汉普知识产权代理有限公司 46003 | 代理人: | 麦海玲 |
地址: | 570100 海*** | 国省代码: | 海南;46 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 课程 学习 智能 深度 确定性 策略 梯度 方法 | ||
本发明提供一种基于课程学习的多智能体深度确定性策略梯度方法,将课程学习与强化学习结合在一起,在通过经验回放池采样时,根据课程标准复杂度从经验回放池中按照优先权重采样数据,然后采用基于Adam优化器的深度确定性策略梯度方法对每个智能体进行训练,并更新策略网络、策略目标网络、评价网络以及评价目标网络,当多智能体在环境内动作的下一个状态不是终止状态时,对课程标准进行更新,根据更加复杂的课程重复进行迭代计算,课程标准中包含的优先标准函数反映样本的采样优先权重,重复采样惩罚考虑重复采样对样本多样性的影响,冗余信息惩罚可以降低智能体之间交互的信息冗余量,与其他算法相比,本发明提高了算法的收敛效率和最终奖励。
技术领域
本发明涉及机器学习技术领域,特别涉及一种基于课程学习的多智能体深度确定性策略梯度方法。
背景技术
强化学习是用于描述和解决智能体在与环境的交互过程中通过学习策略以达成回报最大化或实现特定目标的问题,近年来,强化学习也逐渐被应用于解决很多具有挑战性的问题,例如游戏、机器人等单智能体中,对于单智能体领域而言,强化学习已经取得了很成功的应用,然而现实中的场景多为多智能体场景,例如:无人船路径规划中,当无人船在水面上自主航行时,为了避开静态的障碍物以及其他运动的船只,多智能体强化学习可以用于为无人船推荐最优路径确保交通畅;在出租车调度中,多智能体深度强化学习可以用来分析城市人口的地理分布以及出租车和人流量等,并为不同的地理位置的出租车设定目标和路径,从而使交通资源得到最大限度的利用;在多无人船的协同编队中,采用多智能体强化学习算法可自适应协作地应对各种驾驶环境中的紧急和干扰情况,对于上述的一些多智能体领域中,由于环境信息以及多智能体状态信息的指数级增长,传统的强化学习算法存在不稳定以及难收敛等问题,因此需要在对多智能体的强化学习算法进行改进。
课程学习是机器学习的一种,通常从简单的课程开始学习,然后再学习更加复杂的课程,简单的课程为未来复杂课程的学习奠定了基础,最终提升目标任务的最终渐近性能或减少计算时间,目的在于提高迁移学习的效果,目前课程学习与强化学习的研究基本集中于单智能体的研究,而将课程学习应用在多智能体深度强化学习中的研究较少。
公开号为CN110852448A的发明专利公开了一种基于多智能体强化学习的合作型智能体的学习方法,其仅是公开了多智能体在同一环境下如何通过合作关系来进行全局特征信息的利用,以实现不同智能体得以共享模型参数、简化模型复杂度,但是并没有公开利用课程学习来解决收敛难度大的问题;电子科技大学的硕士论文《强化学习在多智能体协同中的研究与应用》中,提出了一种适用于全局可观测的基于注意力的多智能体强化学习方法以及一种适用于部分可观测环境中基于图网络的多智能体强化学习方法,并相应的扩展到了课程学习中,然而对该硕士论文仅是进行了简单描述,并未对课程学习如何应用在多智能体深度强化算法中进行详细的扩展,因此如何将课程学习应用在多智能体深度强化算法中成为了亟需解决的问题。
发明内容
鉴以此,本发明提出一种基于课程学习的多智能体深度确定性策略梯度方法,用以解决多智能体领域中的强化学习算法稳定性差以及收敛难度较大的问题。
本发明的技术方案是这样实现的:
一种基于课程学习的多智能体深度确定性策略梯度方法,包括以下步骤:
步骤S1、搭建多智能体粒子环境,定义多智能体行为的约束条件,所述多智能体包括策略网络、策略目标网络、评价网络以及评价目标网络;
步骤S2、初始化各参数,设定迭代次数;
步骤S3、多智能体在多智能体粒子环境中按照策略网络动作,并将多智能体动作所产生的信息存储到经验回放池中,多智能体动作产生的信息包括下一状态信息;
步骤S4、根据经验回放池中的信息构建课程标准,计算课程标准复杂度,智能体根据课程标准复杂度从经验回放池中按照优先权重采样数据;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于海南大学,未经海南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110798780.9/2.html,转载请声明来源钻瓜专利网。