[发明专利]一种基于期望值函数的深度强化学习训练加速方法在审
申请号: | 202010313846.6 | 申请日: | 2020-04-20 |
公开(公告)号: | CN111339690A | 公开(公告)日: | 2020-06-26 |
发明(设计)人: | 吴昊霖;李辉;周俊成;王壮;黄操 | 申请(专利权)人: | 成都蓉奥科技有限公司 |
主分类号: | G06F30/20 | 分类号: | G06F30/20;G06N3/08 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 610000 四川省成都市锦江区锦华*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 期望值 函数 深度 强化 学习 训练 加速 方法 | ||
本发明提出一种基于期望值函数的深度强化学习训练加速方法。该方法针对深度强化学习因奖励稀疏而训练缓慢的问题,引入基于期望值函数的辅助评价指标来评估动作表现,从而加快训练速度。该方法主要包括:构建神经网络并进行参数初始化;计算相邻两个状态的动作值函数;利于动作值函数与策略的期望求得期望值函数,并通过期望值函数得到辅助评价指标;最后通过添加辅助评价指标项构建符合损失函数用以更准确的更新值函数网络参数。该方法适用于深度Q神经网络架构算法,能够通过更准确地评估动作表现来加快深度强化学习的训练速度。
技术领域
本发明涉及仿真领域和智能算法领域,尤其涉及深度强化学习技术的训练速度。
背景技术
近年来,因为具有强大的解决序列决策问题的能力,融合深度学习和强化学习优势的深度强化学习备受学术界和工业界的关注。但是,深度学习需要大量数据驱动;强化学习以试错方式进行学习,虽然可以省去繁琐的数据标注工作,但还是需要与环境进行大量地交互以获取足够多的样本。然而,当前深度强化学习存在着样本利用率较低、训练速度较慢的问题,且该问题会随着特定落地场景中任务复杂度的增加而加剧。如在战场仿真环境中,深度强化学习可以通过自主学习完成战术探索,以便辅助相关人员通过观摩、对战等形式开展战法研究、制定或检验作战计划等。但是,战场仿真任务中战场形式瞬息万变,需要实时针对对方行为更改自身策略;且该任务下的动作序列较长,其中包含虽然不会立即获得收益、但对最终战果具有影响的动作决策。所以,在此类任务下深度强化学习需要更多的训练样本。
针对深度强化学习的样本效率和训练速度问题,多种改进算法分别从不同角度去提升算法性能:如经验优先级回放方法通过给样本设置优先级;Dueling DQN方法通过更改神经网络架构以提高对环境的感知准确度;值函数分布方法通过使用一个离散分布来表示动作值函数,以提高对动作值函数的估计准确度。Rainbow算法将多种不同角度的改进方法组合成为一种方法,取得了更好的算法性能,表明不同角度的改进方法可以协同作用。
因为深度强化学习的训练依赖于奖励值,但是通常只是在任务完成时才能获得奖励值,因此导致奖励稀疏问题。奖励重塑技术通过细化奖励值以加快训练,但是奖励值的设定较为困难,甚至误导学习。另外可以通过使用人类的经验样本和特定领域知识来设定辅助奖励值,但是在很多任务中并不具有足量的上述样本和知识。且上述技术只适用于特定任务,不便于算法向其他任务快速扩展,如果能在学习过程中自适应地设定辅助奖励值,将有效缓解当前深度强化学习的奖励稀疏问题。如在上述战场仿真任务下,通过辅助奖励值快速将对最终战果具有深远影响的动作策略加以识别,以促进算法的有效学习。
发明内容
本发明的目的是针对深度强化学习由奖励稀疏导致的训练次数多、样本需求量大的问题,提出一种基于期望值函数的强化学习训练加速方法,通过引入自适应的动作辅助标准以更准确评定当前动作执行效果,进而更准确的更新神经网络参数,最终提高训练速度,减少样本需求量。
本发明提出的一种基于期望值函数的强化学习训练加速方法主要包括以下步骤:
(1)构建在线神经网络No和目标神经网络Nt,并进行参数初始化;
(2)在仿真环境中依据策略π(at|st)选择并执行动作at以获取环境反馈信息;在线神经网络No利用执行动作前所处的状态信息st拟合当前动作值函数Q(st,a),目标神经网络Nt利用执行动作后所处的状态信息st+1拟合下一时刻动作值函数Q(st+1,a);
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于成都蓉奥科技有限公司,未经成都蓉奥科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010313846.6/2.html,转载请声明来源钻瓜专利网。