[发明专利]一种安全强化学习的狭窄空间机器人作业规划方法在审
申请号: | 202210930544.2 | 申请日: | 2022-08-04 |
公开(公告)号: | CN115178944A | 公开(公告)日: | 2022-10-14 |
发明(设计)人: | 王涛;许银涛 | 申请(专利权)人: | 广东工业大学 |
主分类号: | B23K37/02 | 分类号: | B23K37/02;B25J9/16 |
代理公司: | 佛山市君创知识产权代理事务所(普通合伙) 44675 | 代理人: | 张燕玲 |
地址: | 510000 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 安全 强化 学习 狭窄 空间 机器人 作业 规划 方法 | ||
1.一种安全强化学习的狭窄空间机器人作业规划方法,其特征在于,包括:
在机械臂运动之前,设置规划任务以及目标点;
根据机械臂当前的状态信息以及相关运动学约束,计算出期望的加速度at+1N,同时计算制动加速度at+1B,从而构建机械臂可行的动作空间,包括:
定义关节的运动学约束;
在离散的时间点里检测机器人与障碍物以及机器人的机械臂连杆之间的最小距离来确定碰撞情况,若最小距离小于预设的安全距离阈值,则视为发生碰撞;
通过pybullet环境中内置的传感器获取机械臂的状态信息;
建立一个神经网络作为动作预测网络用以预测下一时刻的动作,将关节的状态信息输入到动作预测网络中,预测每个关节相应的动作标量mt+1∈[-1,1],再由式at+1N=at+1min+(1+mt+1)/2·(at+1max-at+1min)得到关节的期望加速度at+1N,其中at+1min、at+1max分别为关节的最小、最大安全加速度;知道期望加速度之后,便可求得关节在下一时刻t+1的速度以及位置;
计算制动加速度:当前时刻t对应的关节速度vt0时,取m’t+1=2*mt+1-1,否则取m’t+1=2(1-mt+1)-1,将m’t+1带入at+1B=at+1min+(1+m’t+1)/2·(at+1max-at+1min)计算得到制动加速度;
对关节的期望加速度进行at+1N进行测试,若执行该动作后机械臂未发生碰撞且未违反定义的关节的运动学约束,则期望加速度at+1N是可行的,将期望加速度at+1N作为替代动作进行执行;否则将计算的制动加速度at+1B作为替代动作进行执行;各关节所计算出的期望加速度at+1N在进行制动后执行;从当前时刻t对应的状态信息开始,执行相应的动作后若无碰撞发生,则行为是安全的,否则停止运动;
由机械臂每个关节的替代动作组成了机械臂可行的动作空间;利用深度强化学习算法在所述动作空间下为机械臂规划运动轨迹并获得最优策略。
2.根据权利要求1所述的安全强化学习的狭窄空间机器人作业规划方法,其特征在于,所述目标点为焊接的起点,规划任务为规划出一条安全的路径使得机械臂末端运动到焊接起点。
3.根据权利要求1所述的安全强化学习的狭窄空间机器人作业规划方法,其特征在于,所述状态信息包括每个关节的位置、速度、加速度以及与障碍物之间的距离。
4.根据权利要求1所述的安全强化学习的狭窄空间机器人作业规划方法,其特征在于,在运动过程为了防止中发生振荡现象,取at+1max=m’t+1*(at+1max-at+1min),at+1min=at+1min+(1-m’t+1)*(at+1max-at+1min)。
5.根据权利要求1所述的安全强化学习的狭窄空间机器人作业规划方法,其特征在于,所述深度强化学习算法,包括:
设置Actor网络和Critic网络作为强化学习网络,Actor更新使用的loss函数采用了自适应KL惩罚系数的loss函数,critic采用TD-error更新,隐藏层使用swish作为激活函数,输出层使用tanh作为激活函数;
在所述动作空间下进行路径规划的训练;
设置训练结束的条件,当机械臂末端连续多次到达预设的目标点可视为规划。成功停止训练。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广东工业大学,未经广东工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210930544.2/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种全超导磁悬浮轴承
- 下一篇:一种便于携带的防尘塑料键盘