[发明专利]一种基于多掩模卷积神经网络的搬运机器人识别目标方法有效
申请号: | 202010084190.5 | 申请日: | 2020-02-10 |
公开(公告)号: | CN111368637B | 公开(公告)日: | 2023-08-11 |
发明(设计)人: | 谢非;陆飞;杨继全;吴俊;汪璠;吴启宇;茆国婷;陈书颖;刘益剑;章悦 | 申请(专利权)人: | 南京师范大学;南京智能高端装备产业研究院有限公司 |
主分类号: | G06V20/10 | 分类号: | G06V20/10;G06V10/764;G06V10/82;G06N3/0464;G06N3/048;G06N3/08 |
代理公司: | 江苏圣典律师事务所 32237 | 代理人: | 胡建华;于瀚文 |
地址: | 210042 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 多掩模 卷积 神经网络 搬运 机器人 识别 目标 方法 | ||
1.一种基于多掩模卷积神经网络的搬运机器人识别目标方法,其特征在于,包括以下步骤:
步骤1,搭建多掩模卷积神经网络,并确定网络结构;
步骤2,选择网络优化器,使用PASCAL VOC数据集作为多掩模卷积神经网络的训练数据集,经过多掩模卷积神经网络模型充分训练,得到训练好的多掩模卷积神经网络;
步骤3,搬运机器人通过摄像头采集视频文件,然后将采集的视频文件逐帧转换为彩色图像,并对彩色图像统一尺寸大小;
步骤4,搬运机器人利用训练好的多掩模卷积神经网络对彩色图像中出现的目标生成目标的坐标位置和目标类别,同时生成目标的实例掩模,从而完成目标的识别;
步骤1包括:
所述多掩模卷积神经网络包括五个部分,具体搭建方法如下:
第一部分包括一个输入层和三个卷积层,用于对数据进行卷积特征提取,第一部分的输入来自于PASCAL VOC数据集,PASCAL VOC数据集里的每一张图像大小为500*500,每一张图像送到输入层;输入层后面是第一部分的第一个卷积层,第一部分的第一个卷积层选用了16个3*3的卷积核,步长为1,填充数量为1,卷积层的输出尺寸计算公式如下所示:
其中,Z是卷积输出数据的长度,W是卷积输入数据的长度,P是填充数量,F是卷积核的长度,S表示步长;
对于第一部分的第一个卷积层,由卷积层的输出尺寸计算公式(1)计算得到第一部分的第一个卷积层的输出大小是500*500*16;
在第一部分的第一个卷积层后使用线性整流函数作为激活函数,将经过激活函数的数据送入第一部分的第二个卷积层,第一部分的第二个卷积层采用32个3*3卷积核,步长为1,填充数量为1,则根据卷积层的输出尺寸计算公式(1),第一部分第二个卷积层的输出大小是500*500*32;
第一部分的第二个卷积层后也使用线性整流函数作为激活函数,将经过激活函数的数据送入第一部分的第三个卷积层,第一部分的第三个卷积层采用64个3*3卷积核,步长为2,填充数量为1,则根据卷积层的输出尺寸计算公式(1),第一部分的第三个卷积层的输出大小是250*250*64;
第二部分包括一个卷积层和两个全连接层;第一部分的第三个卷积层的输出用来输入到第二部分的第一个卷积层,第二部分的第一个卷积层采用128个3*3卷积核,步长为1,填充数量为1,则根据卷积层的输出尺寸计算公式(1),第二部分的第一个卷积层的输出大小是250*250*128;
第二部分的第一个卷积层后使用线性整流函数作为激活函数,将经过激活函数的数据送入第二部分的第一个全连接层,第二部分的第一个全连接层有N1个神经元,对应N1个目标类别,第二部分的第一个全连接层后面使用softmax函数,得到N1个目标类别的置信度系数,置信度系数指目标类别的概率;同时对经过激活函数的第二部分的第一个卷积层送入第二部分的第二个全连接层,第二部分的第二个全连接层有N2个神经元,对应N1个目标类别的候选框位置,每个候选框位置由坐标(x,y,l,h)确定,x代表候选框左上角顶点在多掩模卷积神经网络输入层的每一张图像中距离每一张图像左上角顶点的水平距离,y代表候选框左上角顶点在多掩模卷积神经网络输入层的每一张图像中距离每一张图像左上角顶点的竖直距离,1代表候选框的长度,h代表候选框的高度;
第三部分包括三个卷积层,将由第一部分的第三个卷积层的输出送入第三部分的第一个卷积层,第三部分的第一个卷积层采用64个3*3卷积核,步长为1,填充数量为1,则根据卷积层的输出尺寸计算公式如下所示:
Z1=(W1-1)×S1-2×P1+F1 (2)
其中,Z1是卷积输出数据的长度,W1是卷积输入数据的长度,P1是填充数量,F1是卷积核的长度,S1表示步长;根据卷积层的输出尺寸计算公式(2),第三部分第一个卷积层的输出大小是250*250*64;第三部分的第一个卷积层后也使用线性整流函数作为激活函数,将经过激活函数的数据送入第三部分的第二个卷积层,第三部分的第二个卷积层采用64个4*4卷积核,步长为2,填充数量为1,则根据卷积层的输出尺寸计算公式(2),第三部分第二个卷积层的输出大小是500*500*64;第三部分的第二个卷积层后也使用线性整流函数作为激活函数,将经过激活函数的数据送入第三部分的第三个卷积层,第三部分的第三个卷积层采用1000个3*3卷积核,步长为1,填充数量为1,则根据卷积层的输出尺寸计算公式(2),第三部分的第三个卷积层的输出大小是500*500*1000;
第四部分包括三个卷积层,第三部分的第三个卷积层后也使用线性整流函数作为激活函数,将经过激活函数的数据送入第四部分的第一个卷积层,第四部分的第一个卷积层采用4096个3*3卷积核,步长为2,填充数量为1,则根据卷积层的输出尺寸计算公式(1),第四部分的第一个卷积层的输出大小是250*250*4096;第四部分的第一个卷积层后也使用线性整流函数作为激活函数,送入第四部分的第二个卷积层,第四部分的第二个卷积层采用1000个3*3卷积核,步长为1,填充数量为0,则根据卷积层的输出尺寸计算公式(1),第四部分第二个卷积层的输出大小是125*125*1000,第四部分的第二个卷积层后也使用线性整流函数作为激活函数,送入第四部分的第三个卷积层,第四部分的第三个卷积层采用1000个5*5卷积核,步长为1,填充数量为0,则根据卷积层的输出尺寸计算公式(1),第四部分的第三个卷积层的输出大小是31*31*1000,生成目标的1000个掩模,掩模指通过对图像选定区域用颜色进行覆盖的区域;
第五部分包括一个卷积层和两个全连接层,第三部分的第三个卷积层后也使用线性整流函数作为激活函数,将经过激活函数的数据送入第五部分的卷积层,第五部分的卷积层采用1024个3*3卷积核,步长为2,填充数量为1,则根据卷积层的输出尺寸计算公式(1),第五部分的卷积层的输出大小是250*250*1024;第五部分的卷积层后使用线性整流函数作为激活函数,将经过激活函数的数据送入第五部分的第一个全连接层,第五部分的第一个全连接层有N3个神经元;同时对经过激活函数的第五部分的第一个全连接层送入第五部分的第二个全连接层,第五部分的第二个全连接层有N4个神经元,对应目标的N1个掩模系数,掩模系数指对图像选定区域用颜色进行覆盖的区域的大小;
步骤2包括:
步骤2-1,任意选择PASCAL VOC数据集中里的D张真实图片,并且将D张图片使用双线性插值法得到尺寸为500*500的图片;
步骤2-2,将D张图片按照4:1比例划分为训练集和测试集,在训练的过程中,将D张图片里的每D1张图片作为一个训练单元;
步骤2-3,损失函数使用交叉熵损失函数,网络优化器采用亚当优化器,对多掩模卷积神经网络进行充分训练,得到训练好的多掩模卷积神经网络模型;
步骤3包括:
步骤3-1,搬运机器人通过摄像头采集视频文件;
步骤3-2,将采集的视频文件每隔5帧截取一张图像;
步骤3-3,若截取的图像为灰度图像,采用灰度级-彩色变换法变成彩色图像;
步骤3-4,对彩色图像进行双线性插值法变成尺寸大小为500*500,得到统一尺寸大小的彩色图像;
步骤4包括:
步骤4-1,将步骤3-4得到的统一尺寸大小的彩色图像输入多掩模卷积神经网络模型中进行识别目标;
步骤4-2,多掩模卷积神经网络模型对每个目标都会生成1000个候选框,每个候选框都有对应的坐标位置(x,y,l,h)和目标类别的置信度系数;
步骤4-3,多掩模卷积神经网络模型对每个目标生成1000个掩模和1000个掩模系数;
步骤4-4,使用非极大值快速抑制算法得到每个目标的实际位置和实际类别;
步骤4-5,对每个目标生成的1000个掩模和1000个掩模系数通过线性组合进行合成,再经过tanh非线性激活函数得到每个目标的实例掩模;
步骤4-4包括:
步骤4-4-1,对每个目标里的1000个候选框按照对应的置信度系数的大小情况,由大到小排序;
步骤4-4-2,选中最大置信度系数对应的候选框,计算剩余候选框与最大置信度系数对应的候选框之间的IOU值,IOU值计算公式如下:
IOU=C/Y (3)
其中,C表示两个候选框面积的交集,Y表示两个候选框面积的并集;
步骤4-4-3,设定一个阈值t,根据公式(4)计算新的置信度系数:
其中M为最大置信度系数对应的候选框,si为剩余候选框,IOU(M,si)为M与si的IOU值,G为最大置信度系数对应的候选框经过公式(4)计算得到的新的置信度系数;
如果G=0,则删除最大置信度系数对应的候选框;
步骤4-4-4,从剩余候选框中继续选取一个最大置信度系数对应的候选框,重复4-4-1~步骤4-4-3,直到只剩一个候选框,候选框的坐标位置(x,y,l,h)就是目标的实际位置,最大置信度系数对应的目标类别就是目标的实际类别;
步骤4-5包括:
步骤4-5-1,每个目标生成的1000个掩模和1000个掩模系数通过线性组合进行合成得到合成掩模,线性组合公式(5)如下:
MU=PU*CU (5)
其中MU为合成掩模,PU为掩模的31*31*1000的矩阵,CU为掩模系数1000*1的矩阵;
步骤4-5-2,将每个目标的合成掩模通过非线性激活函数tanh函数进行激活得到每个目标的实例掩模,实例掩模指每个目标识别后所要产生的掩模,tanh函数公式如下所示:
其中e=2.71828,x0为步骤4-5-1里得到的合成掩模MU。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京师范大学;南京智能高端装备产业研究院有限公司,未经南京师范大学;南京智能高端装备产业研究院有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010084190.5/1.html,转载请声明来源钻瓜专利网。