首页在售求购查询申请展会资讯专利榜企服商城升级VIP

立即登录免费注册

在售专利
求购专利
查询专利
新闻资讯
技术展会
招商加盟
专利榜

本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247

本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247

[发明专利]一种基于目标采样的模仿学习方法在审

申请号：	202210333460.0	申请日：	2022-03-30
公开（公告）号：	CN114819060A	公开（公告）日：	2022-07-29
发明（设计）人：	王勇;解永春;李林峰;陈奥;梁红义	申请（专利权）人：	北京控制工程研究所
主分类号：	G06N3/04	分类号：	G06N3/04;G06N3/08;B25J9/16
代理公司：	中国航天科技专利中心 11009	代理人：	程何
地址：	100080 ***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于目标采样模仿学习方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于目标采样的模仿学习方法，其特征在于，包括：

参考轨迹设计：通过人工示教的方式遥控或拖动机械臂完成任务，并记录机械臂的运动轨迹；所述运动轨迹包括机械臂关节角和角速度；

构建神经网络；

执行基本算法流程；所述基本算法流程在强化学习的框架内，利用所述参考轨迹设计reward函数，并对所述神经网络进行训练。

2.根据权利要求1所述的一种基于目标采样的模仿学习方法，其特征在于：所述参考轨迹为τ^I＝{s_k,k∈[0,T]}；其中，s_k表示控制对象在第k时刻的观测状态，T表示参考轨迹持续的时间间隔。

3.根据权利要求1所述的一种基于目标采样的模仿学习方法，其特征在于，所述基本算法流程包括：

子目标采样及参考轨迹分段：根据任务特点把参考轨迹分成若干段，每段设定一个子目标；

切换条件设计：根据任务特点设计每个子目标满足的条件作为切换为下一个阶段的判断条件；

初始化：初始化网络及其它相关变量；

子目标序列训练：以第一个子目标为任务目标开始强化学习训练，在满足切换条件后，按照子目标序列依次进行其它子目标的训练。

4.根据权利要求3所述的一种基于目标采样的模仿学习方法，其特征在于，所述子目标采样的方法为：从参考轨迹τ^I中按照某一规则采样序列点G＝(g₁,g₂,…g_m)；其中g_m为最终任务目标；

所述参考轨迹分段是指在子目标采样的同时，按照子目标把整个参考轨迹τ^I分成m段，每段以该子目标为本段的任务目标。

5.根据权利要求3所述的一种基于目标采样的模仿学习方法，其特征在于，所述切换条件为由子目标g_k(s)切换到g_k+1(s)需要满足的条件C(s,g_k)∈C:S×S→R；S为控制对象观测状态空间，R为实数。

6.根据权利要求3所述的一种基于目标采样的模仿学习方法，其特征在于，所述初始化包括如下步骤：

随机初始化策略网络和价值网络，设定当前仿真时间T_k＝0，当前参考轨迹子目标g(s)＝g₀(s)，并选择一种on-policy强化学习算法。

7.根据权利要求3所述的一种基于目标采样的模仿学习方法，其特征在于，所述子目标序列训练包括：

从G＝(g₁,g₂,…g_m)中依次选取g_k作为本次训练的子目标g；

设g_k对应的时刻为T_k；

利用模仿学习方法设计reward函数；

利用强化学习on-policy算法训练神经网络；

如果当前状态满足C(s,g_k)，则设置g＝g_k+1，T＝T_k+1；

重复上述步骤，直到g＝g_m即满足最终任务目标为止。

8.根据权利要求1或7所述的一种基于目标采样的模仿学习方法，其特征在于：所述神经网络采用actor-critic架构，包括策略网络和评价网络。

9.一种计算机可读存储介质，所述的计算机可读存储介质存储有计算机程序，其特征在于，所述的计算机程序被处理器执行时实现如权利要求1～权利要求8任一所述方法的步骤。

10.一种基于目标采样的模仿学习设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于：所述的处理器执行所述的计算机程序时实现如权利要求1～权利要求8任一所述方法的步骤。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于北京控制工程研究所，未经北京控制工程研究所许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202210333460.0/1.html，转载请声明来源钻瓜专利网。

上一篇：一种测微敏感器周期脉冲误差抑制方法及装置
下一篇：一种冗余机械臂零空间避障规划方法

同类专利

专利分类

G06 计算；推算；计数
G06N 基于特定计算模型的计算机系统
G06N3-00 基于生物学模型的计算机系统
G06N3-02 .采用神经网络模型
G06N3-12 .采用遗传模型
G06N3-04 ..体系结构，例如，互连拓扑
G06N3-06 ..物理实现，即神经网络、神经元或神经元部分的硬件实现
G06N3-08 ..学习方法

免登录下载普通用户下载升级VIP会员，免费下载

友情链接：交换友情链接需要网站权重大于4，网站收录10W以上，如符合条件，请联系QQ：。

关于我们寻求报道投稿须知广告合作版权声明网站地图友情链接企业标识联系我们

在线咨询

周一至周五 9:00-18:00

版权所有http://www.vipzhuanli.com/公布日期

咨询在线客服

咨询在线客服

tel code back_top