[发明专利]一种机械手模型学习方法、装置、电子设备及存储介质有效
申请号: | 202210257626.5 | 申请日: | 2022-03-16 |
公开(公告)号: | CN114347043B | 公开(公告)日: | 2022-06-03 |
发明(设计)人: | 焦家辉;张晟东;王济宇;李志建;蔡维嘉;李腾;张立华;李伟 | 申请(专利权)人: | 季华实验室 |
主分类号: | B25J9/16 | 分类号: | B25J9/16 |
代理公司: | 佛山市海融科创知识产权代理事务所(普通合伙) 44377 | 代理人: | 许家裕 |
地址: | 528200 广东省*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 机械手 模型 学习方法 装置 电子设备 存储 介质 | ||
1.一种机械手模型学习方法,用于训练机械手模型,其特征在于,所述学习方法包括以下步骤:
获取多组供所述机械手模型学习的、关于同一执行任务的专家演示数据;
根据所述专家演示数据生成关联于学习成本函数的专家策略,所述学习成本函数基于模仿所述专家演示数据所需的模仿成本和所述专家演示数据的密集程度建立,所述学习成本函数为,满足:
,
其中,
,
其中,表示策略
为所述基于模仿所述专家演示数据所需的模仿成本,为强化学习成本,用于表征所述专家演示数据的密集程;
最小化所述学习成本函数以获取最优专家策略;
根据所述最优专家策略训练所述机械手模型;
所述根据所述专家演示数据生成关联于学习成本函数的专家策略的步骤包括:
根据所述专家演示数据生成所述专家策略,所述专家策略用于指导机械手模型生成用于所述模仿专家演示数据的模仿行动;
根据模仿行动获取所述模仿成本;
根据所述模仿行动对应的专家演示数据在所有专家演示数据中的密集程度获取强化学习成本;
根据所述模仿成本和所述强化学习成本建立学习成本函数。
2.根据权利要求1所述的一种机械手模型学习方法,其特征在于,所述获取多组供所述机械手模型学习的、关于同一执行任务的专家演示数据的步骤包括:
在虚拟现实中重复通过人类专家直接操作机械手或在现实场景中重复通过人类专家教学移动机械手进行关于同一执行任务的作业演示,以收集多组专家演示数据。
3.根据权利要求1所述的一种机械手模型学习方法,其特征在于,所述最小化所述学习成本函数以获取最优专家策略的步骤包括:
根据多组所述专家演示数据训练所述专家策略,使所述学习成本函数中的模仿成本最小化收敛;
最小化所述强化学习成本以获取最优专家策略。
4.根据权利要求3所述的一种机械手模型学习方法,其特征在于,所述根据多组所述专家演示数据训练所述专家策略,使所述学习成本函数中的模仿成本最小化收敛的步骤包括:
抽取部分所述专家演示数据训练所述专家策略,使所述学习成本函数中的模仿成本收敛;
根据所述专家演示数据梯度更新所述学习成本函数,使收敛后的模仿成本最小化收敛。
5.根据权利要求1所述的一种机械手模型学习方法,其特征在于,所述学习方法还包括执行于所述获取多组供所述机械手模型学习的、关于同一执行任务的专家演示数据的步骤之前的步骤:
根据作业场景的图像数据特征和机载传感器数据建立所述机械手模型训练用的状态空间。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于季华实验室,未经季华实验室许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210257626.5/1.html,转载请声明来源钻瓜专利网。