[发明专利]一种基于视觉反馈和强化学习的柔性臂控制与规划方法在审
申请号: | 202010944332.0 | 申请日: | 2020-09-10 |
公开(公告)号: | CN112506044A | 公开(公告)日: | 2021-03-16 |
发明(设计)人: | 敬忠良;刘物己;乔凌峰;潘汉;陈务军;滕亚军 | 申请(专利权)人: | 上海交通大学 |
主分类号: | G05B13/04 | 分类号: | G05B13/04 |
代理公司: | 上海旭诚知识产权代理有限公司 31220 | 代理人: | 郑立 |
地址: | 200240 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 视觉 反馈 强化 学习 柔性 控制 规划 方法 | ||
一种基于视觉反馈和强化学习的柔性臂控制与规划方法,包括:采集目标定位训练样本;对目标定位深度神经网络进行训练;设计针对所述柔性臂的基于Q‑learning的强化学习算法;通过训练好的所述目标定位深度神经网络进行目标检测,检测的输出作为强化学习的输入量,进行强化学习;根据强化学习结果,驱动所述柔性臂完成指定操控任务。本发明的有益效果是:适应范围广,由于强化学习不依赖模型的控制特性,可以适用于解决多种复杂结构的柔性机器人的控制问题,可以在柔性机器人操控领域广泛应用,为目前缺乏有效控制手段的柔性机器人领域提供重要的技术支持。
技术领域
本发明涉及空间在轨服务、无人监控系统等领域,特别涉及空间柔性臂强化学习智能控制与规划方法。
背景技术
近年来,随着人工智能和机器人技术的发展,智能机器人已经在各行各业得到广泛普及和应用。随着空间任务要求的不断提高和航天科技的持续发展,空间机器人技 术正成为近年来智能机器人领域的研究热点。传统空间操控臂具有可靠性强、成本低、 连续作业能力强等优势,精准的电机控制技术使其能够高效地完成多种特定的任务。
然而在空间非结构化环境中,刚性机械臂普遍缺乏环境适应性,很难满足受限区域、外界冲击下的非合作目标精细柔性操控需求。随着仿生学和人工智能的发展,机 器人领域研究人员把目光聚焦于生物界,以探索新的空间机器人仿生构型与操控方式。 近年来,受生物启发的柔性机器人逐渐进入人们的视野。与刚性机器臂相比,柔性机 器臂的部件全部或部分由弹性模量较小的柔性智能材料构成。柔性机器臂具有柔性程 度与自由度高,抗冲击能力强等特点,能够较好地适应包括空间环境在内的多种复杂 环境。
柔性机器臂具有自由度高等优点的同时,其操控和规划问题一直以来是该领域的研究难点。由于构型的复杂性和智能驱动材料的非线性驱动特性,针对刚性机器人基 于正逆运动学模型的传统控制方法,如PID,模型预测控制等控制方法不再适用。目 前,针对柔性机器臂的控制方法相关研究工作中,没有一套公认的较好的通用控制方 案,人为设置运动指令来控制柔性机器臂运动的开环控制方法仍为主流。但是这样的 操控方法在实际应用中具有局限性,在空间在轨环境等非结构复杂环境中对柔性臂操 控的自主性和智能性要求较高,如何针对特定仿生构型的柔性机器臂来设计操控方案 是值得探索的一个问题。
发明内容
针对上述问题,为了使柔性机器臂能够准确自主地完成目标对准任务,本发明以空间柔性机器臂为操控对象,提供了一种基于视觉反馈和强化学习的柔性臂控制与规 划方法。
方法包括:
步骤1,采集目标定位训练样本;
步骤2,对目标定位深度神经网络进行训练;
步骤3,设计针对柔性臂的基于Q-learning的强化学习算法;
步骤4,通过训练好的深度神经网络进行目标检测,检测的输出作为强化学习 的输入量,进行强化学习;
步骤5,根据强化学习结果,驱动柔性臂完成指定操控任务。
进一步地,所述步骤1中,通过摄像头对各种环境中、各个姿态的目标进行 图像采集,采集到图像之后,对训练样本标记,标签为目标在图像中的位置坐标。
进一步地,所述步骤2中,目标定位深度神经网络采用基于YOLOv3框架的 卷积神经网络。
进一步地,所述步骤2中,训练所选用的损失函数由三部分组成,分别为: 坐标误差、交并比误差和分类误差,该联合损失函数可表示为:
loss=λcoord·coordErr+λiou·iouErr+λcls·clsErr
其中λcoord,λiou与λcls分别为三个损失的权重。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海交通大学,未经上海交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010944332.0/2.html,转载请声明来源钻瓜专利网。