首页在售求购查询申请展会资讯专利榜企服商城升级VIP

立即登录免费注册

在售专利
求购专利
查询专利
新闻资讯
技术展会
招商加盟
专利榜

本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247

本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247

[发明专利]基于对抗学习的控制策略模仿学习方法及装置有效

申请号：	202010302194.6	申请日：	2020-04-16
公开（公告）号：	CN111488988B	公开（公告）日：	2021-10-29
发明（设计）人：	杨君;张明;王亚伟;芦维宁;李志恒;梁斌	申请（专利权）人：	清华大学
主分类号：	G06N3/08	分类号：	G06N3/08;G06F30/20
代理公司：	北京清亦华知识产权代理事务所(普通合伙) 11201	代理人：	王艳斌
地址：	10008***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于对抗学习控制策略模仿学习方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于对抗学习的控制策略模仿学习方法，其特征在于，包括以下步骤：

获取人类专家的决策轨迹数据，并存入专家决策轨迹数据缓存器并且获取与所述专家决策轨迹数据对应的仿真环境；

构建策略网络π，所述策略网络π的输入为所述仿真环境返回的状态，输出为决策动作；

控制策略的对抗模仿训练，其中，使用当前策略网络在所述仿真环境进行交互，获得策略网络的决策轨迹数据基于对抗学习的模仿学习方法对所述专家决策轨迹数据进行模仿，逐步缩减所述策略网络决策轨迹数据和所述专家决策轨迹数据之间的分布差异，以模仿学习得到能够产生专家决策轨迹的策略网络；以及

控制策略的测试，其中，将通过对抗模仿策略得到的策略网络π的参数θ固定保持，以进行实际环境控制任务的应用；

所述控制策略的对抗模仿训练，包括：

S1：初始化策略网络π和鉴别器网络D，其中，策略网络，值网络与鉴别器是由多层神经网络构成的参数化模型，分别负责输出当前策略和鉴别当前策略产生的轨迹与专家轨迹之间的差距，它们的模型参数分别为θ和w；

S2：使用策略网络π在仿真环境Env中进行交互，获得每一步的动作a_t和状态s_t，并存入缓存器其中缓存器是用于存储每一步的动作与状态，形成策略轨迹数据；

S3：从所述缓存器中采样获得所述策略交互得到的状态动作对(s_t,a_t)^π，并从缓存器中采样获得专家决策轨迹的状态动作对(s_t,a_t)^E，根据计算Wasserstein距离损失函数L_wdail对鉴别器网络D进行梯度下降优化：

其中，w是鉴别器网络D的参数，α_d是学习率取0.001，(s,a)^π是缓存器中的决策轨迹数据，(s,a)^E是专家决策轨迹数据；

S4：根据奖励函数计算公式r_t＝-log(1-D(s_t,a_t))，计算每一步的奖励r_t，并存入所述缓存器

S5：根据优势函数计算公式计算每一步的优势值A_t，并存入所述缓存器

S6：根据近端策略优化算法，并利用进行策略网络的优化，是由梯度下降方式按照如下公式进行优化：

其中，θ是策略网络的参数，α_p是学习率，是替代项策略损失目标函数；

S7：使用所述鉴别器网络D计算所述缓存器和中状态动作对的距离，若小于设定阈值Thre时，停止训练保持所获得的参数，完成专家策略的模仿，否则返回所述S2，重新执行步骤所述S2至S6。

2.根据权利要求1所述的方法，其特征在于，所述距离损失函数L_wdail，其公式如下：

其中，λ是惩罚系数，θ和w代表了策略网络π与鉴别器网络D的参数，L_gp是优化鉴别器网络D的梯度惩罚项；

策略决策轨迹数据分布和专家决策轨迹数据分布的Wasserstein距离如下：

其中，(s,a)^π和(s,a)^E是分别来自策略决策轨迹缓存器和专家决策轨迹缓存器的状态动作对样本。

3.根据权利要求2所述的方法，为了满足Lipschitz约束条件，还包括：

在所述鉴别器网络D上增加一个梯度惩罚项：

其中，是采样于的随机样本。

4.根据权利要求1所述的方法，其特征在于，依据策略在经过时间T上面收集得到的状态轨迹计算所述优势函数，公式如下：

其中，δ_t＝r_t+γV(s_t+1)-V(s_t)，γ是超参数，取0.99。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于清华大学，未经清华大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202010302194.6/1.html，转载请声明来源钻瓜专利网。

上一篇：智能型测温消毒舱及检疫方法
下一篇：一种识别水位的方法及设备

同类专利

专利分类

G06 计算；推算；计数
G06N 基于特定计算模型的计算机系统
G06N3-00 基于生物学模型的计算机系统
G06N3-02 .采用神经网络模型
G06N3-12 .采用遗传模型
G06N3-04 ..体系结构，例如，互连拓扑
G06N3-06 ..物理实现，即神经网络、神经元或神经元部分的硬件实现
G06N3-08 ..学习方法

免登录下载普通用户下载升级VIP会员，免费下载

友情链接：交换友情链接需要网站权重大于4，网站收录10W以上，如符合条件，请联系QQ：。

关于我们寻求报道投稿须知广告合作版权声明网站地图友情链接企业标识联系我们

在线咨询

周一至周五 9:00-18:00

版权所有http://www.vipzhuanli.com/公布日期

咨询在线客服

咨询在线客服

tel code back_top