[发明专利]一种基于深度强化学习的机器人抓取方法在审
申请号: | 201811644503.7 | 申请日: | 2018-12-29 |
公开(公告)号: | CN109693239A | 公开(公告)日: | 2019-04-30 |
发明(设计)人: | 黄睿;郎需林;刘培超;林俊凯;林炯辉 | 申请(专利权)人: | 深圳市越疆科技有限公司 |
主分类号: | B25J9/16 | 分类号: | B25J9/16 |
代理公司: | 深圳市六加知识产权代理有限公司 44372 | 代理人: | 曲卫涛 |
地址: | 518000 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 抓取 强化学习 机器人 控制机器人 环境状态 预设 机器人技术领域 策略控制 视觉标定 遍历 | ||
本发明涉及机器人技术领域,特别是涉及一种基于深度强化学习的机器人抓取方法。其中,基于深度强化学习的机器人抓取方法包括:获取环境状态参数与预设抓取模型;根据环境状态参数,从预设抓取模型中遍历出最优抓取策略;根据最优抓取策略,控制机器人抓取物料。一方面,其无需视觉标定,便可以控制机器人抓取物料,因此,其能够降低设计难度。另一方面,其能够选择最优抓取策略控制机器人抓取物料,从而提高抓取精度。
技术领域
本发明涉及机器人技术领域,特别是涉及一种基于深度强化学习的机器人抓取方法。
背景技术
当前,多数机器人空间抓取技术都是基于传统3d视觉算法,抓取物料时,需要用到复杂的机器人视觉标定方法与视觉建模方法,并且,对操作人员需要较高的技术背景。
发明内容
本发明实施例提供了一种基于深度强化学习的机器人抓取方法,其无需视觉标定便准确地抓取物料。
为解决上述技术问题,本发明实施例采用的一个技术方案是:提供一种基于深度强化学习的机器人抓取方法,所述方法包括:
获取环境状态参数与预设抓取模型;
根据所述环境状态参数,从所述预设抓取模型中遍历出最优抓取策略;
根据所述最优抓取策略,控制所述机器人抓取物料。
可选地,所述根据所述环境状态参数,从所述预设抓取模型中遍历出最优抓取策略,包括:
根据预设动态规划方程及所述环境状态参数,从所述预设抓取模型中遍历出最优抓取策略。
可选地,所述根据所述最优抓取策略,控制所述机器人抓取物料,包括:
接收抓取指令,所述抓取指令包括相对位移与夹爪状态参数;
根据所述相对位移与夹爪状态参数,控制所述机器人的夹爪抓取物料放置于预设位置。
可选地,所述夹爪状态参数包括张开抓取参数与关闭抓取参数;
所述根据所述相对位移与夹爪状态参数,控制所述机器人的夹爪抓取物料放置于预设位置,包括:
若所述夹爪状态参数为张开抓取参数,则控制所述机器人的夹爪按照所述相对位移移动至所述物料并抓取所述物料;
若所述夹爪状态参数为关闭抓取参数,则控制所述机器人的夹爪将所述物料放置于预设位置。
可选地,所述控制所述机器人的夹爪将所述物料放置于预设位置,包括:
接收物料提起指令;
根据所述物料提起指令,控制所述机器人的夹爪提起所述物料,并将所述物料放置于预设位置。
可选地,所述环境状态参数包括:抓取物料的环境视觉图像、夹爪高度以及所述机器人的笛卡尔空间位置。
可选地,所述方法还包括:
训练出所述预设抓取模型。
可选地,所述训练出所述预设抓取模型,包括:
初始化所述机器人的初始位置与抓取策略,所述抓取策略包括若干类抓取动作;
设置所述机器人从物料台抓取物料的抓取高度;
确定所述机器人当前抓取物料的环境视觉图像、夹爪高度以及所述机器人的笛卡尔空间位置;
从所述抓取策略中选择目标抓取动作;
执行所述目标抓取动作;
根据所述目标抓取动作,确定策略奖赏;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳市越疆科技有限公司,未经深圳市越疆科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811644503.7/2.html,转载请声明来源钻瓜专利网。