[发明专利]强化学习方法、装置、电子设备和存储介质有效
申请号: | 202011278721.0 | 申请日: | 2020-11-16 |
公开(公告)号: | CN112418435B | 公开(公告)日: | 2023-07-28 |
发明(设计)人: | 闫立俊;牛京;周照;张西军;杨宁;王彪;张斌;冯超;杨鹏涛 | 申请(专利权)人: | 软通动力信息技术(集团)股份有限公司 |
主分类号: | G06N20/00 | 分类号: | G06N20/00;G06F16/23 |
代理公司: | 北京品源专利代理有限公司 11332 | 代理人: | 孟金喆 |
地址: | 100193 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 强化 学习方法 装置 电子设备 存储 介质 | ||
1.一种强化学习方法,其特征在于,所述方法应用于污水处理厂曝气环节,包括:
确定智能体交互环境的当前阶段,并判断当前阶段是否变更;所述当前阶段是根据环境的当前状态距离目标状态的逼近程度划分的;所述目标状态为目标溶解氧含量,所述当前状态为环境中实际的溶解氧含量;
若变更,则根据当前阶段从预先设置的分段回报函数集合中确定目标回报函数,将当前回报函数切换为所述目标回报函数;所述目标回报函数是当前阶段所映射的回报函数;
将当前获取到的样本按照所述目标回报函数进行更新,得到更新后的样本,并基于所述更新后的样本和所述目标回报函数进行阶段变更后的训练;
所述样本中至少包括获取函数阶段和最终回报值;所述最终回报值是按照当时的回报函数确定的综合回报;
相应的,所述将当前获取到的样本按照所述目标回报函数进行更新,包括:
确定与所述获取函数阶段映射的获取回报函数;
根据所述获取回报函数确定最终回报值中的原始回报值;所述原始回报值是所述环境反馈的;
根据所述原始回报值和所述目标回报函数确定更新最终回报值,并对所述样本进行更新。
2.根据权利要求1所述的方法,其特征在于,所述分段回报函数集合的设置步骤如下所示:
根据智能体交互环境的状态与目标状态的逼近程度划分函数阶段;其中,所述函数阶段中至少包括第一函数阶段和第二函数阶段,第一函数阶段中所述逼近程度小于第二函数阶段;
为划分的每一函数阶段设置具有映射关系的回报函数,得到分段回报函数集合;其中,所述分段回报函数集合中至少包括第一回报函数和第二回报函数,第一回报函数与第一函数阶段映射,第二回报函数与第二函数阶段映射,且第一回报函数值小于第二回报函数值。
3.根据权利要求1所述的方法,其特征在于,在确定当前阶段变更之后,所述方法还包括:
根据当前阶段从预先设置的扰动机制档位集合中确定目标扰动机制档位,将当前扰动机制档位切换为所述目标扰动机制档位,按照所述目标扰动机制档位为策略网络产生的智能体行为增加随机扰动。
4.根据权利要求3所述的方法,其特征在于,所述扰动机制档位集合的设置步骤如下所示:
根据所述智能体交互环境的状态与目标状态的逼近程度划分扰动阶段;其中,所述扰动阶段中至少包括第一扰动阶段和第二扰动阶段,第一扰动阶段中所述逼近程度小于第二扰动阶段;
为所述扰动阶段中每一扰动阶段设置具有映射关系的扰动机制档位,得到扰动机制档位集合;其中,所述扰动机制档位集合中至少包括第一扰动机制档位和第二扰动机制档位,第一扰动机制档位与第一扰动阶段映射,第二扰动机制档位与第二扰动阶段映射,且第一扰动机制档位中的扰动范围大于第二回报函数值。
5.根据权利要求3所述的方法,其特征在于,所述扰动机制档位集合中各扰动机制档位的设置根据随机算法中的目标比例参数或者目标增加参数确定。
6.根据权利要求1所述的方法,其特征在于,所述当前获取到的样本包括内存中的缓存样本和/或磁盘中的缓存样本。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于软通动力信息技术(集团)股份有限公司,未经软通动力信息技术(集团)股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011278721.0/1.html,转载请声明来源钻瓜专利网。