[发明专利]强化学习方法、装置、电子设备和存储介质有效
申请号: | 202011278721.0 | 申请日: | 2020-11-16 |
公开(公告)号: | CN112418435B | 公开(公告)日: | 2023-07-28 |
发明(设计)人: | 闫立俊;牛京;周照;张西军;杨宁;王彪;张斌;冯超;杨鹏涛 | 申请(专利权)人: | 软通动力信息技术(集团)股份有限公司 |
主分类号: | G06N20/00 | 分类号: | G06N20/00;G06F16/23 |
代理公司: | 北京品源专利代理有限公司 11332 | 代理人: | 孟金喆 |
地址: | 100193 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明实施例公开了一种强化学习方法、装置、电子设备和存储介质。该强化学习方法包括:确定智能体交互环境的当前阶段,并判断当前阶段是否变更;若变更,则根据当前阶段从预先设置的分段回报函数集合中确定目标回报函数,将当前回报函数切换为目标回报函数;将当前获取到的样本按照目标回报函数进行更新,得到更新后的样本,并基于更新后的样本和目标回报函数进行阶段变更后的训练。本发明实施例基于环境所处的阶段,将回报函数分阶段地提供给智能体,使得智能体在每个阶段都能基于本阶段可见的回报函数进行训练和收敛,通过难度递进的方式达到快速平稳地完成训练过程的目标,从而大幅提高学习速度和收敛速度。 | ||
搜索关键词: | 强化 学习方法 装置 电子设备 存储 介质 | ||
【主权项】:
暂无信息
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于软通动力信息技术(集团)股份有限公司,未经软通动力信息技术(集团)股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/202011278721.0/,转载请声明来源钻瓜专利网。