[发明专利]强化学习的训练方法和装置在审
申请号: | 202010476913.6 | 申请日: | 2020-05-29 |
公开(公告)号: | CN111783994A | 公开(公告)日: | 2020-10-16 |
发明(设计)人: | 庄雨铮;张劲;刘武龙;张崇洁 | 申请(专利权)人: | 华为技术有限公司;清华大学 |
主分类号: | G06N20/00 | 分类号: | G06N20/00;G06N3/04;G06N3/08 |
代理公司: | 北京龙双利达知识产权代理有限公司 11329 | 代理人: | 王龙华;王君 |
地址: | 518129 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 强化 学习 训练 方法 装置 | ||
1.一种强化学习的训练方法,其特征在于,包括:
初始化上下文任务编码器、探索策略和利用策略;
执行根据第一环境信息、所述上下文任务编码器和所述探索策略获取的第一行为,以得到基于所述第一行为的第一样本,所述第一样本包括环境响应于所述第一行为的第一反馈;
执行根据第二环境信息、所述上下文任务编码器和所述利用策略获取的第二行为,以得到基于所述第二行为的第二样本,所述第二样本包括环境响应于所述第二行为的第二反馈;
根据所述第一反馈和所述第二反馈对所述探索策略和所述利用策略进行优化。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
在执行根据第一环境信息、所述上下文任务编码器和所述探索策略获取的第一行为之前,判定所述第一样本的轨迹数量小于第一阈值;
在执行根据第二环境信息、所述上下文任务编码器和所述利用策略获取的第二行为之前,判定所述第二样本的轨迹数量小于第二阈值。
3.根据权利要求1或2所述的方法,其特征在于,所述根据所述上下文任务编码器和第一环境信息执行基于所述探索策略的第一行为,以获取基于所述第一行为的第一样本,包括:
获取所述第一环境信息作为所述上下文任务编码器的输入,以获得第一输出;
将所述第一输出作为所述探索策略的输入,以获得所述第一行为;
执行所述第一行为,以得到所述第一样本。
4.根据权利要求1至3中任一项所述的方法,其特征在于,所述根据所述上下文任务编码器和第二环境信息执行基于所述利用策略的第二行为,以获取基于所述第二行为的第二样本,包括:
获取所述第二环境信息作为所述上下文任务编码器的输入,以获得第二输出;
将所述第二输出作为所述利用策略的输入,以获得所述第二行为;
执行所述第二行为,以得到所述第二样本。
5.根据权利要求1至4中任一项所述的方法,其特征在于,所述根据所述第一反馈和所述第二反馈对所述探索策略和所述利用策略进行优化,包括:
获取所述第一样本对应的第一内在激励和所述第二样本对应的第二内在激励;
根据所述第一内在激励和所述第一反馈获取第一奖励;
根据所述第一奖励对所述探索策略进行优化;
根据所述第二内在激励和所述第二反馈获取第二奖励;
根据所述第二奖励对所述利用策略进行优化。
6.根据权利要求5所述的方法,其特征在于,所述获取所述第一样本对应的第一内在激励和所述第二样本对应的第二内在激励,包括:
获取所述第一环境信息与对所述第一环境信息编码之间的第一互信息;
根据所述第一互信息获取所述第一激励;
获取所述第二环境信息与对所述第二环境信息编码之间的第二互信息;
根据所述第二互信息获取所述第二激励。
7.根据权利要求5所述的方法,其特征在于,所述获取所述第一样本对应的第一内在激励和所述第二样本对应的第二内在激励,包括:
获取所述第一反馈和第一环境状态的第一真值;
获取对第一环境信息的编码的第一预测值;
根据所述第一真值和所述第一预测值的差距获取所述第一内在激励;
获取所述第二反馈和第二环境状态的第二真值;
获取对第二环境信息的编码的第二预测值;
根据所述第二真值和所述第二预测值的差距获取所述第二内在激励。
8.一种适应任务的方法,其特征在于,包括:
载入训练好的上下文任务编码器、探索策略和利用策略;
执行根据第一环境信息、所述上下文任务编码器和所述探索策略的第一行为,以得到基于所述第一行为的第一样本,所述第一样本包括环境响应于所述第一行为的第一反馈;
执行根据第二环境信息、所述上下文任务编码器和所述利用策略的第二行为,以得到基于所述第二行为的第二样本,所述第二样本包括环境响应于所述第二行为的第二反馈。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华为技术有限公司;清华大学,未经华为技术有限公司;清华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010476913.6/1.html,转载请声明来源钻瓜专利网。