[发明专利]一种机械手模型学习方法、装置、电子设备及存储介质有效
申请号: | 202210257626.5 | 申请日: | 2022-03-16 |
公开(公告)号: | CN114347043B | 公开(公告)日: | 2022-06-03 |
发明(设计)人: | 焦家辉;张晟东;王济宇;李志建;蔡维嘉;李腾;张立华;李伟 | 申请(专利权)人: | 季华实验室 |
主分类号: | B25J9/16 | 分类号: | B25J9/16 |
代理公司: | 佛山市海融科创知识产权代理事务所(普通合伙) 44377 | 代理人: | 许家裕 |
地址: | 528200 广东省*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 机械手 模型 学习方法 装置 电子设备 存储 介质 | ||
本发明涉及智能机械手技术领域,具体公开了一种机械手模型学习方法、装置、电子设备及存储介质,其中,学习方法包括以下步骤:获取多组供所述机械手模型学习的、关于同一执行任务的专家演示数据;根据所述专家演示数据生成关联于学习成本函数的专家策略,所述学习成本函数基于模仿所述专家演示数据所需的模仿成本和所述专家演示数据的密集程度建立;最小化所述学习成本函数以获取最优专家策略;根据所述最优专家策略训练所述机械手模型;该方法最终获取的最优专家策略将机械手模型推向专家演示数据分布密集的范围内模仿专家演示行为,从而使得机械手模型能在尽可能低的模仿成本下精准地模仿完成专家演示行为。
技术领域
本申请涉及智能机械手技术领域,具体而言,涉及一种机械手模型学习方法、装置、电子设备及存储介质。
背景技术
目前在生产应用中,机械手通过强化学习可以增强机械手自主交互的通用性,并高效地完成复杂任务;现有的强化学习模型一般通过结合演示数据的学习最优专家行为策略可加快模型收敛,但容易由于专家行为策略存在偏移或仅以最低模仿成本学习而导致最终强化学习模型未能精准地模仿完成专家演示行为。
针对上述问题,目前尚未有有效的技术解决方案。
发明内容
本申请的目的在于提供一种机械手模型学习方法、装置、电子设备及存储介质,从而使得机械手模型能在尽可能低的模仿成本下精准地模仿完成专家演示行为。
第一方面,本申请提供了一种机械手模型学习方法,用于训练机械手模型,所述学习方法包括以下步骤:
获取多组供所述机械手模型学习的、关于同一执行任务的专家演示数据;
根据所述专家演示数据生成关联于学习成本函数的专家策略,所述学习成本函数基于模仿所述专家演示数据所需的模仿成本和所述专家演示数据的密集程度建立;
最小化所述学习成本函数以获取最优专家策略;
根据所述最优专家策略训练所述机械手模型。
本申请的一种机械手模型学习方法,在获取专家策略的过程中,将专家演示数据的密集程度设定为判定学习成本的奖惩条件,使得基于模仿成本和专家演示数据的密集程度建立的学习成本函数通过强化学习与受监督的行为模仿成本进行优化反馈,最终获取的最优专家策略将机械手模型推向专家演示数据分布密集的范围内模仿专家演示行为,从而使得机械手模型能在尽可能低的模仿成本下精准地模仿完成专家演示行为。
所述的一种机械手模型学习方法,其中,所述获取多组供所述机械手模型学习的、关于同一执行任务的专家演示数据的步骤包括:
在虚拟现实中重复通过人类专家直接操作机械手或在现实场景中重复通过人类专家教学移动机械手进行关于同一执行任务的作业演示,以收集多组专家演示数据。
在该示例的学习方法中,输入专家演示数据作为监督学习对象能使机械手模型快速完成执行任务所需动作的学习。
所述的一种机械手模型学习方法,其中,所述根据所述专家演示数据生成关联于学习成本函数的专家策略的步骤包括:
根据所述专家演示数据生成所述专家策略,所述专家策略用于指导机械手模型生成用于所述模仿专家演示数据的模仿行动;
根据模仿行动获取所述模仿成本;
根据所述模仿行动对应的专家演示数据在所有专家演示数据中的密集程度获取强化学习成本;
根据所述模仿成本和所述强化学习成本建立学习成本函数。
在该示例的学习方法中,由于输入了多组专家演示行为,根据模仿行动在专家演示行为分布的位置,能获知该模仿行动的优劣,即获知该模仿行动是否能很好地完成执行任务,故将该模仿行动在专家演示行为分布的位置设定强化学习成本来作为奖惩条件驱使机械手模型强化学习。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于季华实验室,未经季华实验室许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210257626.5/2.html,转载请声明来源钻瓜专利网。