[发明专利]基于深度强化学习与动态运动基元的机械臂自主抓取方法有效
申请号: | 202010323721.1 | 申请日: | 2020-04-22 |
公开(公告)号: | CN111618847B | 公开(公告)日: | 2022-06-21 |
发明(设计)人: | 袁银龙;华亮;李俊红;徐一鸣;程赟 | 申请(专利权)人: | 南通大学 |
主分类号: | B25J9/16 | 分类号: | B25J9/16;B25J19/04 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 226019 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 深度 强化 学习 动态 运动 机械 自主 抓取 方法 | ||
1.基于深度强化学习与动态运动基元的机械臂自主抓取方法,其特征在于:包括如下步骤:
步骤1:安装摄像机图组件,确保识别区域不被遮挡,并对抓取目标区域图像进行预处理,并作为状态信息发送给深度强化学习智能体;
步骤2:基于所述状态信息和深度强化学习原理构建局部策略近端优化训练模型;
步骤3:融合动态运动基元和模仿学习构建一种新的混合运动基元模型;
步骤4:基于所述的新的混合运动基元模型训练机械臂自主抓取物体;
在步骤3中,融合动态运动基元和模仿学习构建一种新的混合运动基元模型,包括一种改进的动态运动基元算法,其相应的动力学方程为:
其中τ是一个时间常数,αz是一个预先设定的固定参数,满足在终止时刻1/τ时z≈0,gf是角度期望值,是期望的最终速度,gm是移动目标,变换函数f(z)使得系统生成任意复杂的非线性轨迹,其定义形式为:
其中ωi是第i个可调参数,C是可调参数的总数,ψi(z)是每一个可调参数对应的权重值,其定义形式为:
该函数是由中心为ci宽度为hi的归一化高斯函数构成;
由于变换函数f(z)在参数上是线性的,局部加权回归算法来求解参数ωi,即最小化目标函数为:
其中ftref是示教轨迹中期望的变换函数值,t∈{1,2,…,T}表示演示的时间步长;
新的混合运动基元模型是指通过随机的抽取一小批运动基元来计算所有运动基元的权重得到新的运动轨迹,新的运动基元可表示为:
其中权重参数λi(s)=exp(-αm||s-si||),其表示运动基元μi(s)对新的运动基元的贡献程度,s为机械臂状态信息。
2.根据权利要求1所述的基于深度强化学习与动态运动基元的机械臂自主抓取方法,其特征在于:在步骤1中,安装摄像机图组件,确保识别区域不被遮挡,并对抓取目标区域图像进行采集处理,作为状态信息发送给深度强化学习智能体,包括:
摄像机,所述摄像机为双目摄像机Bumblee2,所述摄像机安装在机械臂距离底座上方0.8-1米,且在识别区域正前方,确保机械臂开始工作时无遮挡;摄像机拍摄的抓取目标区域的图像信息,经采集预处理后,该图像信息将作为环境状态信息被系统接收;
机械臂,所述机械臂为具有5个自由度的UR5机器人,各关节能够灵活运动。
3.根据权利要求1所述的基于深度强化学习与动态运动基元的机械臂自主抓取方法,其特征在于:在步骤2中,基于所述状态和深度强化学习原理构建局部策略近端优化训练模型包括:在系统中通过设计奖赏函数来评判机械臂是否抓取到物体,奖赏函数的设定为稀疏的,当机械臂完成抓取任务的时候获得奖赏为+1,其它时刻为零,从而引导机械臂快速完成抓取任务获得更多的奖赏回报;机械臂从初始状态到完成抓取任务的运动轨迹通过一组元参数δ表示,是机械臂到达目标位置时对应的关节角度和角速度的值,局部策略近端优化训练模型的目的就是训练学习一个从状态s到元参数δ的映射函数δ(s);将元参数自我学习问题建模为强化学习问题,目标函数可以表示为:
其中Kullback-Leibler距离被用来约束策略更新的幅度大小,使策略梯度算法具有更强的鲁棒性,超参数KLtarget为期望的变化,依据深度强化学习策略梯度更新规则,依据所述目标函数优化网络参数θ。
4.根据权利要求3所述的基于深度强化学习与动态运动基元的机械臂自主抓取方法,其特征在于:在步骤4中,基于所述新的混合运动基元模型训练机械臂自主抓取物体,包括:
设计训练环境,其中所述的训练环境中的控制对象是机械臂,机械臂收到控制决策信息后,执行抓取任务,完成一个运动周期;
在所述运动周期内,智能体首先通过深度强化学习模型得到当前状态st对应的元参数δt,之后依据新的混合运动基元模型得到关节运动轨迹并形成控制决策信息,机械臂执行运动后得到新的状态st+1和奖赏回报rt;
把训练样本(st,at,rt,st+1)存储到经验池中,用于深度强化学习参数训练;
所述机械臂通过智能体与环境不断交互训练,直至机械臂能够自主的完成抓取任务。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南通大学,未经南通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010323721.1/1.html,转载请声明来源钻瓜专利网。