[发明专利]一种基于目标采样的模仿学习方法在审
申请号: | 202210333460.0 | 申请日: | 2022-03-30 |
公开(公告)号: | CN114819060A | 公开(公告)日: | 2022-07-29 |
发明(设计)人: | 王勇;解永春;李林峰;陈奥;梁红义 | 申请(专利权)人: | 北京控制工程研究所 |
主分类号: | G06N3/04 | 分类号: | G06N3/04;G06N3/08;B25J9/16 |
代理公司: | 中国航天科技专利中心 11009 | 代理人: | 程何 |
地址: | 100080 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 目标 采样 模仿 学习方法 | ||
1.一种基于目标采样的模仿学习方法,其特征在于,包括:
参考轨迹设计:通过人工示教的方式遥控或拖动机械臂完成任务,并记录机械臂的运动轨迹;所述运动轨迹包括机械臂关节角和角速度;
构建神经网络;
执行基本算法流程;所述基本算法流程在强化学习的框架内,利用所述参考轨迹设计reward函数,并对所述神经网络进行训练。
2.根据权利要求1所述的一种基于目标采样的模仿学习方法,其特征在于:所述参考轨迹为τI={sk,k∈[0,T]};其中,sk表示控制对象在第k时刻的观测状态,T表示参考轨迹持续的时间间隔。
3.根据权利要求1所述的一种基于目标采样的模仿学习方法,其特征在于,所述基本算法流程包括:
子目标采样及参考轨迹分段:根据任务特点把参考轨迹分成若干段,每段设定一个子目标;
切换条件设计:根据任务特点设计每个子目标满足的条件作为切换为下一个阶段的判断条件;
初始化:初始化网络及其它相关变量;
子目标序列训练:以第一个子目标为任务目标开始强化学习训练,在满足切换条件后,按照子目标序列依次进行其它子目标的训练。
4.根据权利要求3所述的一种基于目标采样的模仿学习方法,其特征在于,所述子目标采样的方法为:从参考轨迹τI中按照某一规则采样序列点G=(g1,g2,…gm);其中gm为最终任务目标;
所述参考轨迹分段是指在子目标采样的同时,按照子目标把整个参考轨迹τI分成m段,每段以该子目标为本段的任务目标。
5.根据权利要求3所述的一种基于目标采样的模仿学习方法,其特征在于,所述切换条件为由子目标gk(s)切换到gk+1(s)需要满足的条件C(s,gk)∈C:S×S→R;S为控制对象观测状态空间,R为实数。
6.根据权利要求3所述的一种基于目标采样的模仿学习方法,其特征在于,所述初始化包括如下步骤:
随机初始化策略网络和价值网络,设定当前仿真时间Tk=0,当前参考轨迹子目标g(s)=g0(s),并选择一种on-policy强化学习算法。
7.根据权利要求3所述的一种基于目标采样的模仿学习方法,其特征在于,所述子目标序列训练包括:
从G=(g1,g2,…gm)中依次选取gk作为本次训练的子目标g;
设gk对应的时刻为Tk;
利用模仿学习方法设计reward函数;
利用强化学习on-policy算法训练神经网络;
如果当前状态满足C(s,gk),则设置g=gk+1,T=Tk+1;
重复上述步骤,直到g=gm即满足最终任务目标为止。
8.根据权利要求1或7所述的一种基于目标采样的模仿学习方法,其特征在于:所述神经网络采用actor-critic架构,包括策略网络和评价网络。
9.一种计算机可读存储介质,所述的计算机可读存储介质存储有计算机程序,其特征在于,所述的计算机程序被处理器执行时实现如权利要求1~权利要求8任一所述方法的步骤。
10.一种基于目标采样的模仿学习设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于:所述的处理器执行所述的计算机程序时实现如权利要求1~权利要求8任一所述方法的步骤。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京控制工程研究所,未经北京控制工程研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210333460.0/1.html,转载请声明来源钻瓜专利网。