[发明专利]强化学习的训练方法和装置在审

申请号：	202010476913.6	申请日：	2020-05-29
公开（公告）号：	CN111783994A	公开（公告）日：	2020-10-16
发明（设计）人：	庄雨铮;张劲;刘武龙;张崇洁	申请（专利权）人：	华为技术有限公司;清华大学
主分类号：	G06N20/00	分类号：	G06N20/00;G06N3/04;G06N3/08
代理公司：	北京龙双利达知识产权代理有限公司 11329	代理人：	王龙华;王君
地址：	518129 广东***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	强化学习训练方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本申请提供了一种强化学习的训练方法和装置，可以提高元强化学习的探索效率，以实现对新任务的快速适应。该方法包括：初始化上下文任务编码器、探索策略和利用策略；执行根据第一环境信息、上下文任务编码器和探索策略获取的第一行为，以得到基于第一行为的第一样本，第一样本包括环境响应于第一行为的第一反馈；执行根据第二环境信息、上下文任务编码器和利用策略获取的第二行为，以得到基于第二行为的第二样本，第二样本包括环境响应于第二行为的第二反馈；根据第一反馈和第二反馈对探索策略和利用策略进行优化。

技术领域

本申请涉及人工智能领域，具体涉及一种强化学习的训练方法和装置。

背景技术

强化学习是用于实现序列决策的通用方法，智能体(agent)以“试错”的方式进行学习，通过动作(action)与环境进行交互获得的奖励(reward)指导行为，目标是使智能体获得最大的奖励。目前强化学习受到学术界和业界的极大重视，然而从完全空白开始训练的强化学习智能体对于新任务尤其是复杂任务的学习效率通常较低，主要的问题在于无法有效调用先验知识解决当前的问题。

为了提升强化学习对新任务的学习能力，目前的主流方法之一是结合元学习。元学习为智能体提供一种使用少量样本快速适应新任务的方法。元强化学习利用先验知识，实现对新任务基于小样本快速学习。目前的元强化学习主要分为基于梯度的元强化学习和基于上下文的元强化学习。其中，基于梯度的元强化学习通过少量步数的梯度下降实现对新任务的快速适应，而基于上下文的元强化学习则通过对任务编码的推理获得更多与任务相关的信息来提升对新任务的探索效率，从而实现对新任务的快速适应。在对新任务的适应效率方面，基于上下文的元强化学习比基于梯度的元强化学习更具有优势。

为了实现对新任务高效的适应，探索效率是元强化学习对新任务快速适应重要影响因素。因此一种具有高探索效率的元强化学习方法，实现对新任务的快速适应，则显得尤为重要。

发明内容

本申请提供一种强化学习的训练方法和装置，可以提高元强化学习的探索效率，以实现对新任务的快速适应。

第一方面，提供了一种强化学习的训练方法，包括：初始化上下文任务编码器、探索策略和利用策略；执行根据第一环境信息、上下文任务编码器和探索策略获取的第一行为，以得到基于第一行为的第一样本，第一样本包括环境响应于第一行为的第一反馈；执行根据第二环境信息、上下文任务编码器和利用策略获取的第二行为，以得到基于第二行为的第二样本，第二样本包括环境响应于第二行为的第二反馈；根据第一反馈和第二反馈对探索策略和利用策略进行优化。

现有的元强化学习方法中探索策略和利用策略融合为一体，探索策略保守，且探索过程中缺少即时反馈，难以实现对任务的快速适应，探索效率低下。本申请实施例的元强化学习的训练方法具有相互独立的探索策略和利用策略，避免了探索策略和利用策略相互制约而导致的探索策略保守，提高探索效率。同时获取环境的即时反馈，为探索策略提供连续的探索信号，对于反馈稀疏的小样本任务也能实现高效适应。

结合第一方面，在第一方面的一种可能的实施方式中，该方法还包括：在执行根据第一环境信息、上下文任务编码器和探索策略获取的第一行为之前，判定第一样本的轨迹数量小于第一阈值；在执行根据第二环境信息、上下文任务编码器和利用策略获取的第二行为之前，判定第二样本的轨迹数量小于第二阈值。

本申请实施例的元强化学习的训练方法中可以对探索策略的执行次数和利用策略的执行次数进行预设，在执行探索策略获取的样本轨迹数量达到预设值之前，执行探索策略，在执行探索策略获取的样本轨迹数量达到预设值之后，在执行利用策略获取的样本轨迹数量达到预设值之前，执行利用策略，在执行利用策略获取的样本轨迹数量达到预设值之后，执行对探索策略和利用策略的优化。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于华为技术有限公司;清华大学，未经华为技术有限公司;清华大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202010476913.6/2.html，转载请声明来源钻瓜专利网。

上一篇：一种磁性铁氧体磁芯制坯用切割装置
下一篇：一种用三级串联精制原料制备针状焦的方法

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06N 基于特定计算模型的计算机系统

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]强化学习的训练方法和装置在审

专利文献下载