[发明专利]强化学习系统训练返回函数的元梯度更新在审
申请号: | 201980033531.1 | 申请日: | 2019-05-20 |
公开(公告)号: | CN112292693A | 公开(公告)日: | 2021-01-29 |
发明(设计)人: | Z.徐;H.P.范哈塞尔特;D.希尔沃 | 申请(专利权)人: | 渊慧科技有限公司 |
主分类号: | G06N3/00 | 分类号: | G06N3/00;G06N3/08 |
代理公司: | 北京市柳沈律师事务所 11105 | 代理人: | 金玉洁 |
地址: | 英国*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 强化 学习 系统 训练 返回 函数 梯度 更新 | ||
1.一种强化学习系统,包括一个或多个处理器,所述一个或多个处理器被配置为:
从强化学习神经网络检索多个经验,所述强化学习神经网络被配置为控制与环境交互的代理执行任务,以尝试基于所述强化学习神经网络的一个或多个策略参数来实现指定的结果,每个经验包括表征环境状态的观测数据、所述代理响应于所述观测数据而执行的动作以及响应于所述动作而接收到的奖励;
使用基于奖励计算返回的返回函数、基于第一经验集更新所述强化学习神经网络的一个或多个策略参数;以及
基于一个或多个更新的策略参数和第二经验集,更新所述返回函数的一个或多个返回参数,其中所述一个或多个返回参数使用相对于所述一个或多个返回参数被微分的元目标函数经由梯度上升或下降方法来更新,其中所述元目标函数取决于所述一个或多个策略参数。
2.根据权利要求1所述的强化学习系统,其中,更新所述一个或多个返回参数利用所述一个或多个更新的策略参数相对于所述一个或多个返回参数的微分。
3.根据权利要求1所述的强化学习系统,其中,所述一个或多个处理器还被配置为迭代地:
使用所述一个或多个更新的策略参数和所述一个或多个更新的返回参数,检索由所述强化神经网络生成的更新的经验;
使用所述一个或多个更新的返回参数、基于第一更新经验集,进一步更新所述一个或多个策略参数;以及
经由梯度上升或下降方法、基于进一步更新的策略参数和第二更新经验集,进一步更新所述一个或多个返回参数,
直到达到结束条件。
4.根据权利要求1所述的强化学习系统,其中,更新所述一个或多个返回参数包括:应用进一步的返回函数作为所述元目标函数的部分,并且根据当所述进一步的返回函数被应用于所述第二经验集时的返回来评估更新的策略。
5.根据权利要求1所述的强化学习系统,其中,对所述一个或多个策略参数的更新应用以所述一个或多个返回参数为条件的策略和值函数中的一个或多个。
6.根据权利要求5所述的强化学习系统,其中,以所述一个或多个返回参数为条件是经由对所述一个或多个返回参数的嵌入来进行的。
7.根据权利要求1所述的强化学习系统,其中,所述一个或多个返回参数包括所述返回函数的折扣因子和所述返回函数的自举因子。
8.根据权利要求1所述的强化学习系统,其中,所述一个或多个处理器还被配置为:
基于所述第二经验集更新所述强化学习神经网络的一个或多个策略参数;以及
基于所述一个或多个更新的策略参数和所述第一经验集,更新所述返回函数的一个或多个返回参数,其中所述一个或多个返回参数经由梯度上升或下降方法来更新。
9.根据权利要求1所述的强化学习系统,其中,被微分的元目标函数为:
其中:
η是所述一个或多个返回参数;以及
J′(τ′,θ′,η′)是以所述第二经验集τ′、所述一个或多个更新的策略参数θ′和形成所述元目标函数的部分的进一步的返回函数的一个或多个进一步的返回参数η′为条件的所述元目标函数。
10.根据权利要求9所述的强化学习系统,其中,系统被配置为基于所述更新的策略参数θ′相对于所述返回参数η的微分dθ′/dη来计算所述被微分的元目标函数,所述微分dθ′/dη是通过将更新函数相对于所述返回参数的微分df(τ,θ,η)/dη加到所述策略参数θ相对于所述返回参数η的微分dθ/dη上来计算的,所述更新函数用于更新策略。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于渊慧科技有限公司,未经渊慧科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201980033531.1/1.html,转载请声明来源钻瓜专利网。
- 上一篇:患者接口
- 下一篇:用于通过离子迁移谱来分析物质的分析装置和方法