[发明专利]一种基于任务嵌入网络的机械臂模仿学习的方法有效
申请号: | 202010829750.5 | 申请日: | 2020-08-18 |
公开(公告)号: | CN112183188B | 公开(公告)日: | 2022-10-04 |
发明(设计)人: | 雷小永;周继祥;赵永嘉;谢建峰;戴树岭 | 申请(专利权)人: | 北京航空航天大学 |
主分类号: | G06V20/40 | 分类号: | G06V20/40;G06V10/774;G06V10/82;G06K9/62;G06N3/04;B25J9/16 |
代理公司: | 北京航智知识产权代理事务所(普通合伙) 11668 | 代理人: | 黄川;史继颖 |
地址: | 100191*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 任务 嵌入 网络 机械 模仿 学习 方法 | ||
1.一种基于任务嵌入网络的机械臂模仿学习的方法,其特征在于,包括如下步骤:
S1:搭建机械臂虚拟仿真环境并操控机械臂完成多种示教任务,创建示教任务数据集;
S2:构建任务嵌入网络,所述任务嵌入网络以示教任务为输入,输出任务组合嵌入,所述任务组合嵌入与任务遍历模块输出的特征掩码相乘,得到示教任务的任务原型;
S3:构建深度神经网络,所述深度神经网络以拼接后的示教任务演示视频为输入,输出机械臂的动作值,所述拼接后的示教任务演示视频通过将所述任务原型平铺并按通道和示教任务演示视频拼接后得到;
S4:基于步骤S1中创建的示教任务数据集,使用监督学习训练方法对所构建的任务嵌入网络和深度神经网络进行联合训练,训练得到示教任务模型;
S5:结合所搭建的机械臂虚拟仿真环境,将步骤S4中得到的示教任务模型作为机械臂的控制策略,指导机械臂完成对于示教任务的模仿。
2.根据权利要求1所述的方法,其特征在于,步骤S1中,所述示教任务数据集包括机械臂的观测值和动作值,所述观测值包括从机械臂虚拟仿真环境中导出的示教任务演示视频,所述动作值包括示教任务过程中机械臂的关节角度、关节速度和末端执行器姿态变化情况。
3.根据权利要求1所述的方法,其特征在于,步骤S2中,构建任务嵌入网络并输出任务组合嵌入具体过程为:从一个示教任务中采样得到K个样本,使用三个卷积层和三个全连接层构建任务嵌入网络fθ:RD→RN,RD、RN分别代表D维欧氏空间和N维欧氏空间;利用任务嵌入网络fθ:RD→RN为每一个样本计算一个标准化N维向量,然后通过取样本向量的标准化平均值来计算该示教任务的任务组合嵌入s′∈RN:
其中
4.根据权利要求1所述的方法,其特征在于,步骤S2中,所述任务遍历模块由集中网络和聚焦网络组成,所述集中网络和所述聚焦网络分别使用残差神经网络构成,其中,所述集中网络用于查看示教任务中的每个演示视频,寻找示教任务演示视频特征的共性;所述聚焦网络则用于查看示教任务中的所有演示视频,屏蔽演示视频间不相关的特征,寻找演示视频间最具判别性的特征。
5.根据权利要求1所述的方法,其特征在于,步骤S4具体过程为:
为每个正示教任务选择两个不相交的示教任务集,分别是支持集和测试集假设一个训练批次中的每个采样任务都是唯一的,选择示教任务作为所述训练批次中的负示教任务,使用点之间的余弦距离和铰链秩损失的组合作为任务嵌入网络的损失函数,正示教任务的损失为:
其中,为正示教任务的损失函数;是正示教任务的测试集中的样本嵌入;sj是正示教任务的任务原型;si是负示教任务的任务原型;γ是间隔距离;
给定正示教任务的支持集的原型和测试集的样本,使用均方误差损失计算深度神经网络的损失:
其中,为深度神经网络的损失函数;为测试集中的第q个示教任务;o为机械臂的观测值,a为机械臂的动作值;
联合训练任务嵌入网络和深度神经网络学习任务原型,示教任务模型的最终损失是:
其中,λemb表示正示教任务的损失函数的权重;表示深度神经网络的损失函数的权重;表示深度神经网络的损失函数的权重。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京航空航天大学,未经北京航空航天大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010829750.5/1.html,转载请声明来源钻瓜专利网。