[发明专利]强化学习方法、装置、电子设备和存储介质有效

申请号：	202011278721.0	申请日：	2020-11-16
公开（公告）号：	CN112418435B	公开（公告）日：	2023-07-28
发明（设计）人：	闫立俊;牛京;周照;张西军;杨宁;王彪;张斌;冯超;杨鹏涛	申请（专利权）人：	软通动力信息技术（集团）股份有限公司
主分类号：	G06N20/00	分类号：	G06N20/00;G06F16/23
代理公司：	北京品源专利代理有限公司 11332	代理人：	孟金喆
地址：	100193 北京市海淀区***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	强化学习方法装置电子设备存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明实施例公开了一种强化学习方法、装置、电子设备和存储介质。该强化学习方法包括：确定智能体交互环境的当前阶段，并判断当前阶段是否变更；若变更，则根据当前阶段从预先设置的分段回报函数集合中确定目标回报函数，将当前回报函数切换为目标回报函数；将当前获取到的样本按照目标回报函数进行更新，得到更新后的样本，并基于更新后的样本和目标回报函数进行阶段变更后的训练。本发明实施例基于环境所处的阶段，将回报函数分阶段地提供给智能体，使得智能体在每个阶段都能基于本阶段可见的回报函数进行训练和收敛，通过难度递进的方式达到快速平稳地完成训练过程的目标，从而大幅提高学习速度和收敛速度。

技术领域

本发明实施例涉及人工智能习技术领域，尤其涉及一种强化学习方法、装置、电子设备和存储介质。

背景技术

强化学习(Reinforcement Learning，RL)，又称再励学习、评价学习或增强学习。强化学习是智能体(Agent)以“试错”的方式进行学习，通过与环境进行交互获得的回报指导行为，目标是使智能体获得最大的回报。回报是强化学习中最重要的内容之一，是一个标量反馈信号，表示智能体在当前时刻做的有多好。

一般来说，回报由环境直接给出，但是，环境反馈的原始回报对目标状态和非目标状态的区分度有时不是很明显，即使采样出目标状态样本，也会被大量非目标状态淹没；同时强化学习为了模型的泛化效果，一般都会采取随机采样策略，因此降低了目标状态样本被选中的概率，这些都会导致训练长期无法收敛的问题。

为解决该问题，智能体可以根据情况动态增加或减少原始回报，以便加速或减速某种趋向。即reward_update＝reward+delta，reward_update为综合回报，reward为环境给出的原始回报，delta为智能体给出的奖励回报，可以是正值或负值，比如，为了抑制智能体原地踏步或徘徊的情况，在离目标较远的情况下，将环境返回的原始回报减去某个特定值，来防止智能体再在原地踏步或徘徊；或者在接近或达成目标时，给予智能体较大的回报，来鼓励智能体快速地达成目标。通过多种状态的回报策略组合出完整的回报策略，并将完整回报策略用于训练过程。但是，这样做会造成如下问题：若将完整的策略应用到训练过程，相当于将多种难度等级的策略同时提供给智能体，那么在训练过程中，由于基本的模型尚未成型，此时同时训练完整策略将会对模型造成拉锯效果，导致长期无法收敛，震荡等问题。

发明内容

本发明实施例提供一种强化学习方法、装置、电子设备和存储介质，以提高强化学习的学习速度和收敛速度。

第一方面，本发明实施例提供了一种强化学习方法，包括：

确定智能体交互环境的当前阶段，并判断当前阶段是否变更；

若变更，则根据当前阶段从预先设置的分段回报函数集合中确定目标回报函数，将当前回报函数切换为所述目标回报函数；

将当前获取到的样本按照所述目标回报函数进行更新，得到更新后的样本，并基于所述更新后的样本和所述目标回报函数进行阶段变更后的训练。

第二方面，本发明实施例还提供了一种强化学习装置，包括：

阶段变更确定模块，用于确定智能体交互环境的当前阶段，并判断当前阶段是否变更；

回报函数确定模块，用于若当前阶段变更，则根据当前阶段从预先设置的分段回报函数集合中确定目标回报函数，将当前回报函数切换为所述目标回报函数；

样本更新模块，用于将当前获取到的样本按照所述目标回报函数进行更新，得到更新后的样本，并基于所述更新后的样本和所述目标回报函数进行阶段变更后的训练。

第三方面，本发明实施例还提供了一种电子设备，包括：

一个或多个处理器；