[发明专利]面向机器人技能学习的快速模仿学习方法、系统、设备有效
申请号: | 202110685036.8 | 申请日: | 2021-06-21 |
公开(公告)号: | CN113408621B | 公开(公告)日: | 2022-10-14 |
发明(设计)人: | 王硕;郝鹏;鲁涛;崔少伟;魏俊杭;蔡莹皓 | 申请(专利权)人: | 中国科学院自动化研究所 |
主分类号: | G06V10/774 | 分类号: | G06V10/774;G06V10/82;G06N3/04 |
代理公司: | 北京市恒有知识产权代理事务所(普通合伙) 11576 | 代理人: | 郭文浩;尹文会 |
地址: | 100190 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 面向 机器人 技能 学习 快速 模仿 学习方法 系统 设备 | ||
1.一种面向机器人技能学习的快速模仿学习方法,其特征在于,该方法包括以下步骤:
S10,当机器人需要学习新的技能时,先获取原始示教数据;所述原始示教数据为示教者执行示教动作前后操作环境的状态;
S20,结合预训练的评测器,通过预设的关键帧提取方法从原始示教数据集中提取关键帧示教数据;
S30,基于所述关键帧示教数据,通过训练好的控制策略模型控制机器人复现示教,从而完成机器人技能学习的泛化;
其中,所述控制策略模型、所述评测器,其训练方法为:
A10,采集探索数据,构建探索数据集;所述探索数据包括机器人在执行设定探索策略生成的动作以及执行动作前后操作环境的状态;
A20,将操作环境的状态作为监督学习的输入、将生成的动作作为监督学习的标签,通过行为克隆方法对预构建的控制策略模型训练;
A30,采集评测数据,构建评测数据集;所述评测数据包括测试任务、通过训练后的控制策略模型执行测试任务时的成功率和操作步数;所述测试任务由测试设置的操作环境的初始状态和目标状态组成;
A40,将测试任务作为监督学习的输入,将成功率和操作步数作为监督学习的标签,通过监督学习的方法训练预构建的评测器;
所述控制策略模型基于带有卷积结构、递归结构的深度神经网络构建;所述评测器基于带有卷积结构的深度神经网络构建。
2.根据权利要求1所述的面向机器人技能学习的快速模仿学习方法,其特征在于,步骤S20中“通过预设的关键帧提取方法从原始示教数据集中提取关键帧示教数据”,其方法为:
S21,将原始示教数据中的操作环境的状态作为节点,构建初始图G;
S22,从初始图中选择一组未经过评测器评测的节点对作为转移任务,使用评测器预测控制策略模型执行转移任务时的成功率和操作步数;
S23,若成功率预测值为1则执行步骤S24,否则执行步骤S25;
S24,在转移任务对应的节点对之间添加一条加权有向边并将权值赋为预测的操作步数,得到加权有向图;
S25,判断初始图中是否仍有未经过评测器评测的节点对,若是则执行步骤S22,否则执行步骤S26;
S26,使用最短路算法寻找加权有向图的最短路径并将最短路径上节点对应的状态作为关键帧示教数据。
3.根据权利要求1所述的面向机器人技能学习的快速模仿学习方法,其特征在于,步骤S30中“通过训练好的控制策略模型控制机器人复现示教”,其方法为:
S31,通过机器人的传感器读取操作环境的初始状态,作为当前状态;
S32,提取所述关键帧示教数据中的操作环境的状态作为目标状态,并在关键帧数据中删除提取的目标状态;
S33,基于所述当前状态和所述目标状态,通过训练好的控制策略模型预测机器人的动作;
S34,机器人执行预测的动作并更新操作环境的当前状态;
S35,判断步骤S34更新的当前状态与步骤S320中提取的目标状态是否一致,若是,则执行步骤S36,否则执行S32;
S36,判断关键帧示教数据中的操作环境的状态是否为空,若是,则完成机器人技能学习的泛化,否则跳转步骤S32。
4.根据权利要求1所述的面向机器人技能学习的快速模仿学习方法,其特征在于,所述设定探索策略为随机搜索。
5.根据权利要求1所述的面向机器人技能学习的快速模仿学习方法,其特征在于,所述控制策略模型,其在训练时的损失函数Loss1为:
其中,f为前向正向模型,π为控制策略模型,θπ为控制策略模型的参数,θf为前向正模型的参数,o1为初始观测,即执行动作前的操作环境的状态,og为目标观测的真值,执行动作后的操作环境的状态的真值,为执行预测动作后目标观测的预测值,为执行真值动作后目标观测的预测值,所述真值动作为探索数据中的动作,ai为第i步时真值动作,为第i步时控制策略模型输出的预测动作,λ是超参数,K为探索数据的采样长度,L为二分类交叉熵损失函数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院自动化研究所,未经中国科学院自动化研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110685036.8/1.html,转载请声明来源钻瓜专利网。