[发明专利]强化学习的方法和装置在审
申请号: | 202010308484.1 | 申请日: | 2020-04-18 |
公开(公告)号: | CN111612126A | 公开(公告)日: | 2020-09-01 |
发明(设计)人: | 刘扶芮;寸文璟;陈志堂 | 申请(专利权)人: | 华为技术有限公司 |
主分类号: | G06N3/04 | 分类号: | G06N3/04;G06N3/08;G06N20/00 |
代理公司: | 北京龙双利达知识产权代理有限公司 11329 | 代理人: | 陈洪艳;王君 |
地址: | 518129 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 强化 学习 方法 装置 | ||
1.一种强化学习的方法,其特征在于,包括:
获取结构图,所述结构图包括通过学习获取的环境或智能体的结构信息;
向所述智能体的策略函数输入所述环境的当前状态和所述结构图,所述策略函数用于生成响应于所述当前状态和所述结构图的动作,所述智能体的策略函数为图神经网络;
利用所述智能体向所述环境输出所述动作;
利用所述智能体从所述环境获取响应于所述动作的下一个状态和奖励数据;
根据所述奖励数据,对所述智能体进行强化学习的训练。
2.如权利要求1所述的方法,其特征在于,所述获取结构图,包括:
获取所述环境的历史交互数据;
将所述历史交互数据输入至结构学习模型;
利用所述结构学习模型从所述历史交互数据中学习结构图。
3.如权利要求2所述的方法,其特征在于,在将所述历史交互数据输入至结构学习模型之前,所述方法还包括:
利用掩码过滤所述历史交互数据,所述掩码用于消除所述智能体的动作对所述历史交互数据的影响。
4.如权利要求2或3所述的方法,其特征在于,所述结构学习模型利用掩码计算损失函数,其中,所述掩码用于消除所述智能体的动作对所述历史交互数据的影响,所述结构学习模型基于所述损失函数学习所述结构图。
5.如权利要求2至4中任一项所述的方法,其特征在于,所述结构学习模型包括以下任意一项:神经交互推断模型、贝叶斯网络和线性非高斯无环图模型。
6.如权利要求1至5中任一项所述的方法,其特征在于,所述环境为机器人控制场景。
7.如权利要求1至5中任一项所述的方法,其特征在于,所述环境为包括结构信息的游戏环境。
8.如权利要求1至5中任一项所述的方法,其特征在于,所述环境为多小区基站工程参数调优的场景。
9.一种用于强化学习的装置,其特征在于,包括:
获取单元,用于获取结构图,所述结构图包括通过学习获取的环境或智能体的结构信息;
交互单元,用于向所述智能体的策略函数输入所述环境的当前状态和所述结构图,所述策略函数用于生成响应于所述当前状态和所述结构图的动作,所述智能体的策略函数为图神经网络;
所述交互单元还用于利用所述智能体向所述环境输出所述动作;
所述交互单元还用于利用所述智能体从所述环境获取响应于所述动作的下一个状态和奖励数据;
训练单元,用于根据所述奖励数据,对所述智能体进行强化学习的训练。
10.如权利要求9所述的装置,其特征在于,所述获取单元具体用于:获取所述环境的历史交互数据;将所述历史交互数据输入至结构学习模型;利用所述结构学习模型从所述历史交互数据中学习结构图。
11.如权利要求10所述的装置,其特征在于,所述获取单元还用于:利用掩码过滤所述历史交互数据,所述掩码用于消除所述智能体的动作对所述历史交互数据的影响。
12.如权利要求9或10所述的装置,其特征在于,所述结构学习模型利用掩码计算损失函数,其中,所述掩码用于消除所述智能体的动作对所述历史交互数据的影响,所述结构学习模型基于所述损失函数学习所述结构图。
13.如权利要求9至12中任一项所述的装置,其特征在于,所述结构学习模型包括以下任意一项:神经交互推断模型、贝叶斯网络和线性非高斯无环图模型。
14.如权利要求9至13中任一项所述的装置,其特征在于,所述环境为机器人控制场景。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华为技术有限公司,未经华为技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010308484.1/1.html,转载请声明来源钻瓜专利网。