[发明专利]一种基于分布距离的小目标检测方法有效
申请号: | 202110623154.6 | 申请日: | 2021-06-04 |
公开(公告)号: | CN113378905B | 公开(公告)日: | 2022-06-03 |
发明(设计)人: | 杨文;王金旺;徐畅;夏桂松 | 申请(专利权)人: | 武汉大学 |
主分类号: | G06V10/774 | 分类号: | G06V10/774;G06V10/764;G06V10/22;G06K9/62 |
代理公司: | 武汉科皓知识产权代理事务所(特殊普通合伙) 42222 | 代理人: | 许莲英 |
地址: | 430072 湖*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 分布 距离 目标 检测 方法 | ||
1.一种基于分布距离的小目标检测方法,其特征在于,包括以下步骤:
步骤1:构建小目标检测图像数据集;
步骤2:人工标注步骤1中所述小目标检测数据集中每幅图像的目标标记框以及目标类别;
步骤3:构建基于分布距离的小目标检测网络,将步骤2中所述小目标检测数据集作为输入数据,结合小目标检测训练集中的目标类型,构建基于分布距离的小目标检测网络损失函数,通过随机梯度下降算法训练得到优化后的基于分布距离的小目标检测网络;
步骤4:将待识别的图像输入优化后的基于分布距离的小目标检测网络中,输出检测结果;
步骤3中所述基于分布距离的小目标检测网络具体包括:具有金字塔结构的特征提取网络、基于分布距离的候选区域生成网络、Fast R-CNN网络;
所述具有金字塔结构的特征提取网络、基于分布距离的候选区域生成网络、Fast R-CNN网络之间均为串行级联;
所述具有金字塔结构的特征提取网络使用ResNet-50-FPN作为特征提取网络,网络输入为所述步骤2中的小目标检测训练集的单张图片trains(p,q),输出数据为{F1(P1×Q1×C1),F2(P2×Q2×C2),...,FL(PL×QL×CL)}共L种不同尺度的特征图,其中Pi,Qi,Ci分别是第i层特征图的高度,宽度和通道数;
所述基于分布距离的候选区域生成网络的搭建步骤如下:该网络的输入为{F1(P1×Q1×C1),F2(P2×Q2×C2),...,FL(PL×QL×CL)}共L种不同尺度的特征图;
首先在特征金字塔第一层F1上以各像素点为中心密集的铺设具有3种长宽比(a,b,c)且面积均为S1的基础锚框,锚框集合记为A1,接着在其他各层Fi上铺设锚框Ai,各层上的锚框边长与基础锚框边长的比值与特征图采样倍率一致;
为了训练候选区域生成网络中的分类和回归分支,需要将生成的锚框分为正样本和负样本送入后续网络参与训练;当锚框符合以下两种情况其中之一时,将正样本标签分配给此锚框:
该锚框与某标注框的归一化高斯Wasserstein距离的值是所有锚框中最大的;
该锚框与某标注框的归一化高斯Wasserstein距离值大于人为设定的正样本阈值αp;
如果该锚框与所有标注框的归一化高斯Wasserstein距离值均低于人为设定的负样本阈值αn,则将负样本标签分配给该锚框;如果一个锚框既没有分配到正样本标签也没有分配到负样本标签,则该锚框不参与训练;基于分布距离的正负样本分配算法,具体步骤如下:
首先输入标注框集合G,特征金子塔层级L,第i层特征图中的锚框集合Ai,所有锚框集合A,正样本阈值αp,负样本阈值αn;接着,将存放正样本和负样本的集合P、N初始化为空集;然后,对于输入图片中的每一个标注框g,在L层特征金字塔上的每一层,计算标注框g与锚框Ai之间的NWD并将该值存入集合Dg,计算Dg中最大值所对应的锚框索引m,将{Aim}加入正样本集合P;并且,对于锚框集合Ai中的锚框a,判断a和标注框g之间的NWD值是否大于正样本阈值αp,如果大于αp则将a加入正样本集合P;判断a和标注框g之间的NWD是否小于负样本阈值αn,如果小于αn则将a加入负样本集合N;在遍历所有特征金字塔层级,遍历所有标注框后,输出正样本集合P和负样本集合N;
在使用正负样本对网络进行训练后,网络可以预测出图像中大量目标的候选区域矩形框集合B,对应的矩形框的得分集合S,然后使用基于分布距离的非极大值抑制操作删除大量冗余候选区域矩形框;具体的,针对网络输出的某一类别c的矩形框集合对应的矩形框的得分集合选择预测得分最大的矩形框并原始得分,然后计算和其它矩形框的归一化高斯Wasserstein距离值,如果该值大于0.5,说明矩形框与的相似度过高,的得分设为0,如果该值不大于0.5,则保留原始得分;这样一轮后,再选择剩下矩形框的中得分最大的那个框并保留,然后计算该框和其它矩形框的归一化高斯Wasserstein距离,重复以上过程直到遍历完B中的每一个矩形框,输出经非极大值抑制后保留的矩形框集合B,以及矩形框的分数集合S;
所述Fast R-CNN网络,将候选区域生成网络生成的矩形框集合B进行RoI池化操作,提取矩形框对应区域的特征,紧接着使用该特征对矩形框进行分类和回归,对网络权重进行优化;
具体的,所述步骤3中归一化高斯Wasserstein距离值的计算公式为:
其中,NWD表示归一化高斯Wasserstein距离,C为一个归一化常量,用于消除距离的量纲,可以设置为数据集的平均绝对尺度,W2(Na,Nb)2表示二元高斯分布Na和Nb之间的2阶Wasserstein距离,二元高斯分布Ns,k使用矩形框的参数进行建模,其中二元高斯分布的期望为R的中心点坐标(cxs,k,cys,k),中心点坐标的计算公式为:
其中,为矩形边框的左上角点的横坐标和纵坐标,ws,k,hs,k分别指该边界框的宽度和高度;
协方差为矩形框的宽度和高度的一半即(ws,k/2,hs,k/2),由此可得W2(Na,Nb)2的计算公式为:
其中,(cxa,cya,wa,ha)和(cxb,cyb,wb,cyb)分别表示矩形框A和B的位置参数;
具体的,所述步骤3中基于分布距离的候选区域生成网络,其分类损失函数为交叉熵损失函数:
其中,y是目标的类别,p是相应类别的置信度;基于分布距离的候选区域生成网络的回归损失函数为归一化高斯Wasserstein距离损失函数,其计算公式为:
其中,W2(Ni,Ns,k)2表示二元高斯分布Ni和Ns,k之间的2阶Wasserstein 距离,其计算公式为:
其中,ai=(cxi,cyi,wi,hi)和boxs,k=(cxs,k,cys,k,ws,k,hs,k)分别表示锚框和标注框的位置;
所述基于分布距离的候选区域生成网络损失函数为分类与回归损失函数之和:
所述步骤3中Fast R-CNN网络损失函数保留原网络损失函数;
所述步骤4,将待识别的图像输入优化后的基于分布距离的小目标检测网络中,经过有金字塔结构的特征提取网络、基于分布距离的候选区域生成网络、Fast R-CNN网络,再经非极大值抑制操作后得到最终识别结果:
{pboxm,n,pclassm,n,c},m∈[1,M],n∈[1,Nm],c∈[1,C]
其中,l表示待识别图像上的左,t表示待识别图像上的上,r表示待识别图像上的右,b表示待识别图像上的下,M表示待识别的图片数量,Nm表示待识别的第m张图片中的预测框数量,C表示目标类别数量;pboxm,n表示第m个待识别图像中第n个预测框的坐标,表示第m个待识别图像中第n个预测框左上角的横坐标,表示第m个待识别图像中第n个预测框左上角的纵坐标;pwm,n表示第m个待识别图像中第n个预测框的宽度,phm,n表示第m个待识别图像中第n个预测框的高度,pclassm,n,c表示第m个待识别图像中第n个预测框属于类别c的置信度pclassm,n,c∈[0,1]。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉大学,未经武汉大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110623154.6/1.html,转载请声明来源钻瓜专利网。