[发明专利]基于近端策略优化算法的机器人快速装配方法及系统有效
申请号: | 202111353675.0 | 申请日: | 2021-11-16 |
公开(公告)号: | CN113977583B | 公开(公告)日: | 2023-05-09 |
发明(设计)人: | 宋锐;门渔;李凤鸣;靳李岗;王艳红 | 申请(专利权)人: | 山东大学 |
主分类号: | B25J9/16 | 分类号: | B25J9/16;B25J18/00;B25J19/00 |
代理公司: | 济南圣达知识产权代理有限公司 37221 | 代理人: | 李圣梅 |
地址: | 250061 山东*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 策略 优化 算法 机器人 快速 装配 方法 系统 | ||
本发明提出了基于近端策略优化算法的机器人快速装配方法及系统,包括:力检测单元、机械臂及控制系统;所述力检测单元用来获取机械臂末端力信息,并将力信息反馈至控制系统;所述控制系统根据机械臂位姿、机械臂末端装配力/力矩作为状态输入训练近端策略优化算法网络,所述网路输出机械臂所需的动作值,基于所述动作值控制机械臂进行轴孔装配。近端策略优化算法增强了数据的利用效率,不用设置学习率的大小,具有更好的样本复杂性和泛化能力。
技术领域
本发明属于机器人装配技术领域,尤其涉及基于近端策略优化算法的机器人快速装配方法及系统。
背景技术
本部分的陈述仅仅是提供了与本发明相关的背景技术信息,不必然构成在先技术。
在机器人装配操作中,由于装配模型复杂、环境多变,通常的装配策略并不准确且对不同装配环境的适应能力差。主要有两种方法进行机器人装配操作,基于模型的装配和基于无模型的装配。
基于模型的装配通过建立一个精确的环境接触模型进行机器人装配,但在实际的工业场景中,噪声干扰、环境多变、装配对象的形状复杂并存在异构型等因素导致建立一个精确的环境接触模型很难办到。
基于无接触的模型不依赖环境模型的建立,主要通过学习的方法对环境进行探索,得到一种精确的装配策略。一般的学习方法对学习率的要求很高,学习率过高或过低都会导致训练失败,并且奖励函数的设立也对环境的变化十分敏感,设计合适的奖励函数十分困难。
上述方式的装配导致的问题是:一般的学习方法无法实现对机器人的快速且准确的装配,以及学习过程中各参数的选取十分困难。
发明内容
为克服上述现有技术的不足,本发明提供了基于近端策略优化算法的机器人快速装配系统及方法,能够不依赖于环境模型,提高装配策略的泛化能力,减少对学习率等参数的调节。
为实现上述目的,本发明的一个或多个实施例提供了如下技术方案:
第一方面,公开了基于近端策略优化算法的机器人快速装配系统,包括:
力检测单元、机械臂及控制系统;
所述力检测单元用来获取机械臂末端力信息,并将力信息反馈至控制系统;
所述控制系统根据机械臂位姿、机械臂末端装配力/力矩作为状态输入训练近端策略优化算法网络,所述网路输出机械臂所需的动作值,基于所述动作值控制机械臂进行轴孔装配。
作为一种实施例子,所述控制系统还包括模糊奖励系统,所述模糊奖励系统由两个模糊层构成,其中第一模糊层的输出是第二模糊层的输入,最终第二模糊层的输出作为负奖励,正奖励由装配所用步数决定。
作为一种实施例子,所述第一模糊层的输入为最大接触力、最大接触力矩、z轴方向的位移及装配深度,上述输入参数作为轴孔装配参数。
第二方面,公开了基于近端策略优化算法的机器人快速装配方法,包括:
控制机械臂螺旋搜孔,判断是否找到孔位,若是,则获取当前状态并输送至近端策略优化算法网络,近端策略优化算法网络输出机械臂动作指令,机械臂基于所接收的指令进行插孔装配,直至装配结束。
作为一种实施例子,所述机械臂基于所接收的指令进行插孔装配时,还基于获取的当前状态进行模糊逻辑处理,得到阻抗参数,基于阻抗参数及所接收的指令进行插孔装配。
作为进一步优选的方案,基于获取的当前状态进行模糊逻辑处理,得到阻抗参数,具体为:由机械臂力/力矩和末端位姿通过模糊逻辑得到阻抗值。
作为进一步优选的方案,所述模糊逻辑通过机械臂力/力矩和末端位姿及阻抗值之间表格得到。
以上一个或多个技术方案存在以下有益效果:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山东大学,未经山东大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111353675.0/2.html,转载请声明来源钻瓜专利网。