[发明专利]一种基于深度强化学习的多模融合机器人缝制方法及系统有效
申请号: | 202010453893.0 | 申请日: | 2020-05-26 |
公开(公告)号: | CN111633647B | 公开(公告)日: | 2021-06-22 |
发明(设计)人: | 宋锐;付天宇;李凤鸣;李贻斌;田新诚 | 申请(专利权)人: | 山东大学 |
主分类号: | B25J9/16 | 分类号: | B25J9/16;D05B19/08;D05B19/16 |
代理公司: | 济南圣达知识产权代理有限公司 37221 | 代理人: | 董雪 |
地址: | 250061 山东*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 深度 强化 学习 融合 机器人 缝制 方法 系统 | ||
1.一种基于深度强化学习的多模融合机器人缝制方法,其特征在于,包括:
分别获取缝制过程中的织物状态图像信息、线迹状态图像信息以及织物张力状态信息;
构造并训练机器人的缝制操作技能学习网络,所述缝制操作技能学习网络包括策略网络和评价网络;所述策略网络的输入为织物状态图像信息和织物张力状态信息,输出为机械臂的动作值;所述评价网络的输入为织物状态图像信息和机械臂动作值,输出为Q函数值;
将采集到的缝制过程中的状态信息输入到所述缝制操作技能学习网络中,输出机械臂的关节角度,以控制机械臂动作;
基于线迹状态图像信息,确定机械臂动作的奖励函数,以评价当前机械臂缝制动作的好坏程度,具体过程包括:
对线迹状态图像信息进行图像滤波、图像二值化以及连通域合并后,霍夫线段检测提取缝制线迹,计算提取的线迹斜率;
通过Canny算子提取织物局部边界,计算提取的边界斜率以及线迹顺直度;
将缝制线迹与织物局部边界的垂直距离作为线迹平移量;
基于线迹顺直度和线迹平移量所处的范围,确定当前织物缝制状态st下,机械臂动作的奖励函数。
2.如权利要求1所述的一种基于深度强化学习的多模融合机器人缝制方法,其特征在于,当缝制线迹顺直度小于最大阈值l0,且距离织物边界的线迹平移量距离在dmin与dmax之间时,认为缝制成功。
3.如权利要求2所述的一种基于深度强化学习的多模融合机器人缝制方法,其特征在于,t时刻,在状态st下,动作at的奖励函数为:
其中,l0为线迹顺直度最大阈值,dmin为线迹平移量的最小阈值,dmax为线迹平移量的最大阈值。
4.如权利要求1所述的一种基于深度强化学习的多模融合机器人缝制方法,其特征在于,所述策略网络包括:
织物状态图像信息经过两个卷积层以及一个最大池化层,融合织物张力状态信息后,再经历3个全连接层得到输出动作值。
5.如权利要求1所述的一种基于深度强化学习的多模融合机器人缝制方法,其特征在于,所述评价网络包括:
缝制织物状态图像信息经过两个卷积层以及一个最大池化层后,融合织物张力状态信息后,经历第一全连接层到达第三全连接层,机械臂动作a经过第二全连接层到达第三全连接层,将第一全连接层与第二全连接层的输出串联后到达第三全连接层,再经过第四全连接层,最后得到输出为Q函数值。
6.如权利要求1所述的一种基于深度强化学习的多模融合机器人缝制方法,其特征在于,对于缝制操作技能学习网络的训练过程包括:
初始化缝制操作技能学习网络的参数;
设定并执行机械臂动作at;
在缝制环境中得到奖励r和下一时刻状态st+1,然后将(st,at,rt,st+1)表示为一个过渡数据存入经验池R;
在经验池R中,随机采样N个过渡数据作为一组训练数据;
采用Adam算法分别对策略网络参数和评价网络参数进行优化和更新;
当完成N个回合的单步训练后,开始下一个周期的训练;直到完成设定周期的训练,得到训练结果。
7.一种基于深度强化学习的多模融合机器人缝制系统,其特征在于,包括:
状态感知模块,用于分别获取缝制过程中的织物状态图像信息、线迹状态图像信息以及织物张力状态信息;
融合决策模块,用于对状态感知模块获取的信息处理为机器人缝制操作技能学习网络的输入,并将网络输出的机械臂缝制动作作用于缝制环境模块;
缝制环境模块,用于接收并执行机械臂动作,同时将变化的指缝制环境中织物的状态图像与织物张力信息反馈给状态感知模块。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山东大学,未经山东大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010453893.0/1.html,转载请声明来源钻瓜专利网。