[发明专利]一种基于多掩模卷积神经网络的搬运机器人识别目标方法有效

申请号：	202010084190.5	申请日：	2020-02-10
公开（公告）号：	CN111368637B	公开（公告）日：	2023-08-11
发明（设计）人：	谢非;陆飞;杨继全;吴俊;汪璠;吴启宇;茆国婷;陈书颖;刘益剑;章悦	申请（专利权）人：	南京师范大学;南京智能高端装备产业研究院有限公司
主分类号：	G06V20/10	分类号：	G06V20/10;G06V10/764;G06V10/82;G06N3/0464;G06N3/048;G06N3/08
代理公司：	江苏圣典律师事务所 32237	代理人：	胡建华;于瀚文
地址：	210042 ***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于多掩模卷积神经网络搬运机器人识别目标方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于多掩模卷积神经网络的搬运机器人识别目标方法，其特征在于，包括以下步骤：

步骤1，搭建多掩模卷积神经网络，并确定网络结构；

步骤2，选择网络优化器，使用PASCAL VOC数据集作为多掩模卷积神经网络的训练数据集，经过多掩模卷积神经网络模型充分训练，得到训练好的多掩模卷积神经网络；

步骤3，搬运机器人通过摄像头采集视频文件，然后将采集的视频文件逐帧转换为彩色图像，并对彩色图像统一尺寸大小；

步骤4，搬运机器人利用训练好的多掩模卷积神经网络对彩色图像中出现的目标生成目标的坐标位置和目标类别，同时生成目标的实例掩模，从而完成目标的识别；

步骤1包括：

所述多掩模卷积神经网络包括五个部分，具体搭建方法如下：

第一部分包括一个输入层和三个卷积层，用于对数据进行卷积特征提取，第一部分的输入来自于PASCAL VOC数据集，PASCAL VOC数据集里的每一张图像大小为500*500，每一张图像送到输入层；输入层后面是第一部分的第一个卷积层，第一部分的第一个卷积层选用了16个3*3的卷积核，步长为1，填充数量为1，卷积层的输出尺寸计算公式如下所示：

其中，Z是卷积输出数据的长度，W是卷积输入数据的长度，P是填充数量，F是卷积核的长度，S表示步长；

对于第一部分的第一个卷积层，由卷积层的输出尺寸计算公式(1)计算得到第一部分的第一个卷积层的输出大小是500*500*16；

在第一部分的第一个卷积层后使用线性整流函数作为激活函数，将经过激活函数的数据送入第一部分的第二个卷积层，第一部分的第二个卷积层采用32个3*3卷积核，步长为1，填充数量为1，则根据卷积层的输出尺寸计算公式(1)，第一部分第二个卷积层的输出大小是500*500*32；

第一部分的第二个卷积层后也使用线性整流函数作为激活函数，将经过激活函数的数据送入第一部分的第三个卷积层，第一部分的第三个卷积层采用64个3*3卷积核，步长为2，填充数量为1，则根据卷积层的输出尺寸计算公式(1)，第一部分的第三个卷积层的输出大小是250*250*64；

第二部分包括一个卷积层和两个全连接层；第一部分的第三个卷积层的输出用来输入到第二部分的第一个卷积层，第二部分的第一个卷积层采用128个3*3卷积核，步长为1，填充数量为1，则根据卷积层的输出尺寸计算公式(1)，第二部分的第一个卷积层的输出大小是250*250*128；

第二部分的第一个卷积层后使用线性整流函数作为激活函数，将经过激活函数的数据送入第二部分的第一个全连接层，第二部分的第一个全连接层有N1个神经元，对应N1个目标类别，第二部分的第一个全连接层后面使用softmax函数，得到N1个目标类别的置信度系数，置信度系数指目标类别的概率；同时对经过激活函数的第二部分的第一个卷积层送入第二部分的第二个全连接层，第二部分的第二个全连接层有N2个神经元，对应N1个目标类别的候选框位置，每个候选框位置由坐标(x，y，l，h)确定，x代表候选框左上角顶点在多掩模卷积神经网络输入层的每一张图像中距离每一张图像左上角顶点的水平距离，y代表候选框左上角顶点在多掩模卷积神经网络输入层的每一张图像中距离每一张图像左上角顶点的竖直距离，1代表候选框的长度，h代表候选框的高度；

第三部分包括三个卷积层，将由第一部分的第三个卷积层的输出送入第三部分的第一个卷积层，第三部分的第一个卷积层采用64个3*3卷积核，步长为1，填充数量为1，则根据卷积层的输出尺寸计算公式如下所示：

Z₁＝(W₁-1)×S₁-2×P₁+F₁ (2)

其中，Z₁是卷积输出数据的长度，W₁是卷积输入数据的长度，P₁是填充数量，F₁是卷积核的长度，S₁表示步长；根据卷积层的输出尺寸计算公式(2)，第三部分第一个卷积层的输出大小是250*250*64；第三部分的第一个卷积层后也使用线性整流函数作为激活函数，将经过激活函数的数据送入第三部分的第二个卷积层，第三部分的第二个卷积层采用64个4*4卷积核，步长为2，填充数量为1，则根据卷积层的输出尺寸计算公式(2)，第三部分第二个卷积层的输出大小是500*500*64；第三部分的第二个卷积层后也使用线性整流函数作为激活函数，将经过激活函数的数据送入第三部分的第三个卷积层，第三部分的第三个卷积层采用1000个3*3卷积核，步长为1，填充数量为1，则根据卷积层的输出尺寸计算公式(2)，第三部分的第三个卷积层的输出大小是500*500*1000；

第四部分包括三个卷积层，第三部分的第三个卷积层后也使用线性整流函数作为激活函数，将经过激活函数的数据送入第四部分的第一个卷积层，第四部分的第一个卷积层采用4096个3*3卷积核，步长为2，填充数量为1，则根据卷积层的输出尺寸计算公式(1)，第四部分的第一个卷积层的输出大小是250*250*4096；第四部分的第一个卷积层后也使用线性整流函数作为激活函数，送入第四部分的第二个卷积层，第四部分的第二个卷积层采用1000个3*3卷积核，步长为1，填充数量为0，则根据卷积层的输出尺寸计算公式(1)，第四部分第二个卷积层的输出大小是125*125*1000，第四部分的第二个卷积层后也使用线性整流函数作为激活函数，送入第四部分的第三个卷积层，第四部分的第三个卷积层采用1000个5*5卷积核，步长为1，填充数量为0，则根据卷积层的输出尺寸计算公式(1)，第四部分的第三个卷积层的输出大小是31*31*1000，生成目标的1000个掩模，掩模指通过对图像选定区域用颜色进行覆盖的区域；

第五部分包括一个卷积层和两个全连接层，第三部分的第三个卷积层后也使用线性整流函数作为激活函数，将经过激活函数的数据送入第五部分的卷积层，第五部分的卷积层采用1024个3*3卷积核，步长为2，填充数量为1，则根据卷积层的输出尺寸计算公式(1)，第五部分的卷积层的输出大小是250*250*1024；第五部分的卷积层后使用线性整流函数作为激活函数，将经过激活函数的数据送入第五部分的第一个全连接层，第五部分的第一个全连接层有N3个神经元；同时对经过激活函数的第五部分的第一个全连接层送入第五部分的第二个全连接层，第五部分的第二个全连接层有N4个神经元，对应目标的N1个掩模系数，掩模系数指对图像选定区域用颜色进行覆盖的区域的大小；

步骤2包括：

步骤2-1，任意选择PASCAL VOC数据集中里的D张真实图片，并且将D张图片使用双线性插值法得到尺寸为500*500的图片；

步骤2-2，将D张图片按照4:1比例划分为训练集和测试集，在训练的过程中，将D张图片里的每D1张图片作为一个训练单元；

步骤2-3，损失函数使用交叉熵损失函数，网络优化器采用亚当优化器，对多掩模卷积神经网络进行充分训练，得到训练好的多掩模卷积神经网络模型；

步骤3包括：

步骤3-1，搬运机器人通过摄像头采集视频文件；

步骤3-2，将采集的视频文件每隔5帧截取一张图像；

步骤3-3，若截取的图像为灰度图像，采用灰度级-彩色变换法变成彩色图像；

步骤3-4，对彩色图像进行双线性插值法变成尺寸大小为500*500，得到统一尺寸大小的彩色图像；

步骤4包括：

步骤4-1，将步骤3-4得到的统一尺寸大小的彩色图像输入多掩模卷积神经网络模型中进行识别目标；

步骤4-2，多掩模卷积神经网络模型对每个目标都会生成1000个候选框，每个候选框都有对应的坐标位置(x,y,l,h)和目标类别的置信度系数；