[发明专利]一种基于自动标注和迁移学习的密集堆垛目标检测方法有效
申请号: | 201911074733.9 | 申请日: | 2019-11-06 |
公开(公告)号: | CN110866476B | 公开(公告)日: | 2023-09-01 |
发明(设计)人: | 郁云 | 申请(专利权)人: | 南京信息职业技术学院 |
主分类号: | G06V20/10 | 分类号: | G06V20/10;G06V10/762;G06V10/764;G06V10/82;G06N3/0464;G06N3/096 |
代理公司: | 南京天翼专利代理有限责任公司 32112 | 代理人: | 奚铭 |
地址: | 210023 江苏省*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 自动 标注 迁移 学习 密集 堆垛 目标 检测 方法 | ||
1.一种基于自动标注和迁移学习的密集堆垛目标检测方法,其特征是对于截面堆垛图像,将高分辨率图像分割为多个低分辨率图像,将低分辨率图像分成N个子区域,记录子区域在原图像位置,使用变分自编码器VAE模型对图像进行分类和标注,得到已标注的训练图像集;然后将已标注的训练图像集输入已预训练的目标检测模型YOLOv3,优化YOLOv3模型的先验框尺寸和损失函数,利用训练图像集对模型进行精调;最后将待检测图像输入YOLOv3模型,输出目标子区域的分类和子区域位置及数量,再将输出结果图拼接恢复成原始高分辨率图像,并统计总计数结果,完成堆垛物计数;包括如下步骤:
步骤1,利用滑窗算法将高分辨率的堆垛横截面图像分割成低分辨率图像;然后将低分辨率图像分成M个R0×R0像素的子区域集,并记录每个子区域的中心点位置数据;利用变分自编码器模型,对每个图像的目标子区域与非目标子区域进行分类,目标子区域指堆垛物体的截面,其他为非目标子区域,最后结合子区域的中心点位置数据实现对目标子区域的自动标注;
步骤2,将已标注的训练数据集输入已经经过COCO和VOC数据集预训练的目标检测模型YOLOv3,根据训练数据集统计计算检测模型输入的先验框尺寸,优化YOLOv3模型的损失函数,然后进行模型精调;步骤2的具体步骤为:
步骤2.1,利用k-means算法对训练数据集M(GPj,POSj)中的先验框尺寸进行聚类分析,找出最优的尺寸,作为检测模型YOLOv3的备选尺寸,k-means算法的距离函数如式(2):
d(box,centriod)=1-IoU(box,cendroid) (2)
其中,GPj表示目标子区域,POSj表示子区域在原图像中的位置,j=1,…M,IoU为非极大值候选框box与极大值框cendroid之间的面积交并比,所述极大值框指训练集中,已标注的真实目标区域框的分值最高的区域框;
步骤2.2,构造YOLOv3模型,并对模型进行超参数设置:选择步骤2.1中,IoU值最大的检出框尺寸设置为最大的先验框尺寸;
步骤2.3,引入排斥力损失函数Repulsion Loss对YOLOv3模型用于计算目标位置回归的损失函数进行改进,以改善密集堆垛对象因相互遮挡导致识别率下降的问题;RepulsionLoss包括一个吸引项和两个排斥项,计算公式如式(3):
L=LAttr+α*LRepGT+β*LRepBox (3)
其中,LAttr见式(4)为吸引项,优化目标是使预测框尽量靠近目标对象,
其中,ρ+为所有正样本的集合,P为其中一个候选回归,BP为回归P的预测框,
即为每个P匹配一个与之有最大IoU值的真实目标框,
排斥项LRepGT见式(7),目标是让预测框离除了分配给它的真实框之外的极大值框尽可能远,
其中,即给定回归P除了其指定目标之外带有最大IoU区域的真实框,LRepGT被定义为BP与之间的IoG值,IoG为预测框与真实框交集与真实框之面积比,
排斥项LRepBox见式(8),目标是让分配了不同真实框目标的候选框尽可能远,
根据真实目标框将ρ+分为不同子集,LRepBox的优化目标是使得来自与不同子集的候选框之间覆盖,即IoU值尽可能小,其中,公式(8)分母为示性函数,表示:必须是有交集的预测框才计入损失值,如果两个预测框完全不相邻,则不计入,
其中,σ∈[0,1]为敏感性参数,根据实验效果设定;
步骤2.4,将已标注的训练图像集输入经过优化改进的目标检测模型YOLOv3,进行模型精调,调整模型中网络节点权重;
步骤3,通过步骤1中的图像分割方法对待检测图片进行分割,将分割后的低分辨率图像输入YOLOv3模型进行目标检测,输出目标子区域的分类和子区域位置,再将输出结果图拼接恢复成原始高分辨率图像,并统计总计数结果,完成密集堆垛的数量检测。
2.根据权利要求1所述的基于自动标注和迁移学习的密集堆垛目标检测方法,其特征是步骤1的具体步骤为:
步骤1.1,利用滑窗算法将高分辨率的堆垛横截面图像集G中的每张图片gi分割成N个R×R像素的低分辨率图像组成的图像集GLi,i=1,…N,其中R由目标检测算法的推荐输入图像尺寸决定;
步骤1.2,利用滑窗算法将GLi中的每个图像分成M个R0×R0像素的子区域集GSj,j=1,…M,其中R0是人工预估的目标子区域的基准半径,并记录每个子区域在原图像中的位置POSj;
步骤1.3,将GSj作为训练集输入变分自编码器模型VAE,对GLi中目标子区域GPj与非目标子区域GNj进行无监督聚类,采用式(1)作为VAE用来聚类的损失函数;
其中,x是待分类的样本数据变量,z,y是通过VAE模型学习提取的特征隐变量,z代表分类编码,y是一个离散值,代表类别标签;是通过一批采样数据统计获得的样本经验分布,p(z|x)假设为满足均值为μ(x),方差为σ2(x)的正态分布,q(x|z)为方差为常数的正态分布,q(z|y)是均值为μy方差为1的正态分布,q(y)假设为均匀分布时是一个常数,p(y|z)即为对隐变量z的分类器,可以通过训练一个softmax网络来拟合,拟合后的结果即可实现对输入图像的分类和标注;结合POSj实现对GLi中每个图像的自动标注,形成已标注训练数据集M(GPj,POSj);
步骤1.4,人工对数据集M中误差较大的标注数据样本进行筛除。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京信息职业技术学院,未经南京信息职业技术学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911074733.9/1.html,转载请声明来源钻瓜专利网。