[发明专利]一种基于视觉反馈和强化学习的柔性臂控制与规划方法在审
申请号: | 202010944332.0 | 申请日: | 2020-09-10 |
公开(公告)号: | CN112506044A | 公开(公告)日: | 2021-03-16 |
发明(设计)人: | 敬忠良;刘物己;乔凌峰;潘汉;陈务军;滕亚军 | 申请(专利权)人: | 上海交通大学 |
主分类号: | G05B13/04 | 分类号: | G05B13/04 |
代理公司: | 上海旭诚知识产权代理有限公司 31220 | 代理人: | 郑立 |
地址: | 200240 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 视觉 反馈 强化 学习 柔性 控制 规划 方法 | ||
1.一种基于视觉反馈和强化学习的柔性臂控制与规划方法,其特征在于,包括:
步骤1,采集目标定位训练样本;
步骤2,对目标定位深度神经网络进行训练;
步骤3,设计针对所述柔性臂的基于Q-learning的强化学习算法;
步骤4,通过训练好的所述目标定位深度神经网络进行目标检测,检测的输出作为强化学习的输入量,进行强化学习;
步骤5,根据强化学习结果,驱动所述柔性臂完成指定操控任务。
2.如权利要求1所述的基于视觉反馈和强化学习的柔性臂控制与规划方法,其特征在于,所述步骤1中,通过摄像头对目标进行图像采集,采集到图像之后,对训练样本标记,标签为所述目标在所述图像中的位置坐标。
3.如权利要求1所述的基于视觉反馈和强化学习的柔性臂控制与规划方法,其特征在于,所述步骤2中,所述目标定位深度神经网络采用基于YOLOv3框架的卷积神经网络。
4.如权利要求1所述的基于视觉反馈和强化学习的柔性臂控制与规划方法,其特征在于,所述步骤2中,训练所选用的损失函数由三部分组成,分别为:坐标误差、交并比误差和分类误差,联合损失函数表示为:
loss=λcoord·coordErr+λiou·iouErr+λcls·clsErr
其中λcoord,λiou与λcls分别为三个损失的权重。
5.如权利要求1所述的基于视觉反馈和强化学习的柔性臂控制与规划方法,其特征在于,所述步骤2中,首先使用ImageNet数据集对网络参数进行预训练,随后使用所述步骤1所采集的数据集中训练,得到最终的感知网络。
6.如权利要求1所述的基于视觉反馈和强化学习的柔性臂控制与规划方法,其特征在于,所述步骤3中,将时刻t目标物体在视野坐标系中的位置与视野中心点间的距离视作当前状态st,将规划控制信号即所述柔性臂每节中的3根SMA驱动器的驱动定义为动作at,Q-learning的目标函数定义为:
at=[a1,a2,a3]
st=F(d|x,y,h,w)。
7.如权利要求6所述的基于视觉反馈和强化学习的柔性臂控制与规划方法,其特征在于,所述步骤3中,奖励函数为:
其中x和y表示所述目标物体位于所述视野坐标系中左上角的坐标,w和h表示所述目标物体位于所述视野坐标系中的宽和高。
8.如权利要求7所述的基于视觉反馈和强化学习的柔性臂控制与规划方法,其特征在于,所述步骤3中,强化学习的目标为使得目标函数取得最大值,Q-learning采用时间差分法对所述目标函数进行迭代更新,完成所述柔性臂在一步的状态更新和动作输出,其迭代关系式表示为:
式中,α表示学习率,γ为衰减因子。
9.如权利要求8所述的基于视觉反馈和强化学习的柔性臂控制与规划方法,其特征在于,所述步骤3中,定义所述柔性臂每节中的驱动SMA驱动弹簧为i=1,2,3,并定义l为SMA驱动器长度,所述柔性臂单节的运动学模型表示为:
通过先验与后验测得SMA驱动弹簧的长度,得到l1,l2,l3的数值,解出运动学方程组,得到所述柔性臂末端的工作空间。
10.如权利要求1所述的基于视觉反馈和强化学习的柔性臂控制与规划方法,其特征在于,所述步骤4中,微型摄像头采集图片后,将所述图片作为输入,使用训练好的所述目标定位深度神经网络检测目标物体在视野坐标系中的位置,检测输出包括所述目标物体位于所述视野坐标系中的坐标及边界框的大小,将所述边界框中心到视野中心点的距离作为强化学习的输入量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海交通大学,未经上海交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010944332.0/1.html,转载请声明来源钻瓜专利网。