[发明专利]一种针对二维图像中的多尺度多形态目标的自动检测方法有效
申请号: | 201911240172.5 | 申请日: | 2019-12-06 |
公开(公告)号: | CN111027547B | 公开(公告)日: | 2022-08-09 |
发明(设计)人: | 徐源;龚黎;方晗;吴敏;孔文韬;袁杰 | 申请(专利权)人: | 南京大学;南京鼓楼医院 |
主分类号: | G06V10/25 | 分类号: | G06V10/25;G06V10/46;G06V10/774;G06V10/82;G06K9/62;G06N3/04 |
代理公司: | 江苏圣典律师事务所 32237 | 代理人: | 胡建华;于瀚文 |
地址: | 210023 江苏省南*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 针对 二维 图像 中的 尺度 形态 目标 自动检测 方法 | ||
1.一种针对二维图像中的多尺度多形态目标的自动检测方法,其特征在于,包括如下步骤:
步骤1,对原始图像进行预处理,去除图像周边空白以及无用文字信息区域,提取出待检测的有效图像区域;
步骤2,对预处理后的图像进行标注,框出目标所在位置并制作标签,图像和其对应标签共同构成数据集,供后续模型训练;
步骤3,将图像输入以残差网络ResNet101为基础特征提取网络的目标检测网络,在目标检测网络的基础特征提取网络ResNet101中加入空间映射层,将空间映射后的特征图和其他特征图一起融合构成特征金字塔以适应二维图像中目标形态的变化;
步骤4,在特征金字塔上使用锚框完成区域推荐,区域推荐网络生成的感兴趣区域ROI经过感兴趣区域池化方法ROI Align后变形成具有相同大小的特征图,特征图经由分类和位置回归后得到最终的检测结果;
步骤5,使用数据集训练通过步骤3和步骤4改进后的目标检测网络,将数据集随机划分为n1份相互独立的数据集合,在不同次训练中,每次选取一份用作测试集,其余部分用作训练集,以此进行交叉验证;
步骤6,使用训练好的目标检测模型对可能含有目标的图片进行检测,选定阈值筛选出包含目标可能性较大的检测框并对筛选出的检测框进行非极大值抑制,去除重叠框,得到最终的目标检测结果;
步骤3中,所述目标检测网络为基于区域推荐的Faster R-CNN,所述目标检测网络包括区域推荐网络RPN和快速卷积网络Fast R-CNN;输入的图像张量首先经过基础特征提取网络ResNet101进行特征提取,所述区域推荐网络RPN使用提取出的特征生成目标检测的候选区域,Fast R-CNN对目标检测的候选区域输出候选框的分类得分,并进行边框回归得到目标物体的精确位置;
所述目标检测网络Faster R-CNN的损失为快速卷积网络Fast R-CNN的损失和区域推荐网络RPN的损失,两部分损失都包括目标分类损失和边界框回归损失;所述目标分类损失为交叉熵损失,边界框回归损失为改进后的最小绝对值偏差损失smooth L1损失,计算方式为:
L是目标检测网络Faster R-CNN的损失函数,包括Lcls和Lreg,λ为权重参数,Ncls和Nreg为归一化参数,分别用于标准化目标分类损失和边界框回归损失;其中Lcls为分类时的对数损失函数,Lreg是回归时的损失函数;i表示第i个锚点,pi表示候选框i为目标的概率,表示候选框i对应的样本所属标签;如果是正样本,如果是负样本则舍弃负样本,ti表示预测候选框的4个参数化坐标向量偏移量,表示与正样本锚点相关的真实候选框的坐标向量偏移量;
步骤3中,在目标检测网络Faster R-CNN的基础特征提取网络中对标准卷积得到的特征图经过一组平行的卷积得到偏移量,根据偏移量重新整合原特征图像素,进行空间映射,变相实现卷积核的扩张,具体包括如下步骤:
步骤3-1,将数据集中的图像张量作为基础特征提取网络ResNet101的输入,经由三个卷积块,对每个图像张量输出C张H×W大小的特征图,H和W分别表示特征图的高度和宽度;
步骤3-2,对每个图像张量经由基础特征提取网络ResNet101中前三个卷积块输出的C张特征图,使用2C个3×3大小的卷积核对其进行卷积,C张特征图记为特征层F,得到特征层F中特征图上每个位置的横坐标x方向和纵坐标y方向的偏移量,设第i张特征图Fi上位置为(a,b)的特征值为f(a,b)在2C张特征偏移图上对应的x方向和y方向偏移量分别为Δa和Δb,则经过偏移后第i张特征图F′i上位置为(a,b)的特征值f′(a,b)由原特征图Fi中位置为(floor(a+Δa),floor(b+Δb)),(floor(a+Δa),ceil(b+Δb)),(ceil(a+Δa),floor(b+Δb))和(ceil(a+Δa),ceil(b+Δb))的特征值做双线性插值得到,其中floor表示向下取整,ceil代表向上取整;对特征层F中每张特征图的每个特征点做如上的变换,即得到进行空间映射后的特征层F′;
步骤3-3,将像素重新整合后的特征层F′作为基础特征提取网络ResNet101第四个卷积块的输入进行标准卷积,特征层空间映射通过一个平行的标准卷积单元计算得到;
步骤3中,所述特征金字塔由图像张量经由基础特征提取网络ResNet101的不同卷积块计算得到的不同层次特征图进行上采样融合得到,具体过程如下:
步骤3-1-1,图像张量进入基础特征提取网络ResNet101后首先经过一个7×7的卷积层和一个3×3的最大值池化层,自底向上经过四个结构不同的卷积块运算后分别输出四个不同大小的特征层C2,C3,C4,C5,共同构成特征层集,记为[C2,C3,C4,C5],其中C4为标准卷积后得到的标准特征层经由一组平行的卷积模块做空间映射得到;
步骤3-1-2,对于得到的特征层集[C2,C3,C4,C5]做自顶向下和横向连接,首先对特征层C5做1×1的卷积实现通道融合得到特征层记为P5,特征层P5经由最大值池化下采样得到特征金字塔中高层特征记为P6,自顶向下的过程采用上采样进行,对P5上采样并与步骤3-1-1中自底向上产生的相同大小的特征层C4进行融合,再采用3×3的卷积对融合结果消除上采样的混叠效应,得到特征层记为P4,使用同样的融合方法得到特征层C3融合后的特征层,记为P3,特征层C2融合后的特征层记为P2,最终融合得到的不同层次不同大小的特征图构成了特征金字塔[P2,P3,P4,P5,P6];
步骤4包括:
步骤4-1,将数据集中的图像做与目标检测网络输入时一样的尺寸变换处理,根据每张图像尺寸大小缩放的比例,对应的将每张图像中的标注目标框依照比例调整;
步骤4-2,将调整后的所有目标框分别按照尺寸和比例进行统计,其中目标框的尺寸指目标框占有的像素面积;
步骤4-3,按照统计的尺寸数据,将尺寸划分为5个区间,在每个区间内选择一个具有代表性的平均尺寸,并统计每个平均尺寸下目标框的多数比例,由此选出具有代表性的5个目标尺寸及其对应的目标比例,称为锚框,并按照锚框对应目标的大小将其分别分配给特征金字塔[P2,P3,P4,P5,P6]中的5个特征层,在每个特征层上应用对应的锚框来进行目标的分类预测和位置回归;
步骤4中所述区域推荐由区域推荐网络RPN实现,区域推荐网络RPN对特征金字塔中的每张特征图选用3×3的滑窗对特征图上的每个点位置生成一个通道数N的全连接特征,然后在这个N维特征后使用通道数分别为2×k和4×k的两个1×1卷积层产生两个分支,k为特征图上每个锚点对应锚框个数:
第一个分支:位置回归层regression layer,用于计算每个锚点对应的锚框与推荐框之间的坐标向量偏移量tx,ty,tw,th,其中[tx,ty]是中心点坐标的偏移量,[tw,th]分别是将锚框映射到推荐框对应的宽和高的变化量,网络训练时将回归层输出的偏移量与锚框和标注目标框之间的坐标向量偏移量计算位置回归损失,最小化回归损失以训练RPN,所述坐标向量偏移量的计算方法如下:
tx=(x-xa)/wa,ty=(y-ya)/ha,
tw=log(w/wa),th=log(h/ha),
其中,[xa,ya,wa,ha]为锚框的坐标向量,其元素xa,ya,wa,ha分别代表锚框的中心点位置、锚框的宽度和锚框的高度,[x,y,w,h]为区域推荐网络RPN预测的推荐框proposal box的中心点坐标以及宽高,[x*,y*,w*,h*]为训练集中标注的目标框的中心点坐标和宽高;
第二个分支:目标分类层class layer,用于判定每个锚点对应的锚框生成的推荐框proposal box中的内容是否含有目标,对于特征图上每个锚点生成2×k维的向量,向量中每两个元素代表一个推荐框proposal box是前景和背景的概率分布;
步骤4还包括:
步骤4-4,对于区域推荐网络RPN生成的候选框,大小为w×h,按照下采样步长stridei,简记为si,映射到特征图Pi中的大小为保留计算中的浮点数;
步骤4-5,设需要得到的固定大小的特征图的尺寸为l×l,则将在特征图Pi上映射得到的的候选区域划分成l×l个相同大小的小区域,每个小区域的大小为保留计算中的浮点数;
步骤4-6,设定采样点数为c×c,即表示,对于每个的小区域,平分成c×c小份,每一小份中中心点的像素值,采用双线性插值法进行计算,则得到四个点的像素值,最后,取c×c小份中像素值的最大值作为的小区域的池化结果,以此类推,对每个的小区域做同样的操作,最终组成l×l的感兴趣区域池化结果;
步骤6包括:
步骤6-1,对于类别clsi,将该类别下网络输出的所有检测框按照其属于clsi类别的置信度进行排序,构成检测框集B;
步骤6-2,按照置信度从高到低的顺序依次遍历B中的检测框,对检测框bi,计算其与其他检测框bj的交并比IOU,选定阈值T,若IOU>T,则在框集B中删除检测框bj,重复此操作直至完成一次遍历,将检测框bi加入检测框集D;
步骤6-3,重复步骤6-2直至框集B为空,检测框集D即为最终的结果框集。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京大学;南京鼓楼医院,未经南京大学;南京鼓楼医院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911240172.5/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种识别数字串读法的方法及装置
- 下一篇:一种管道的制作工艺
- 彩色图像和单色图像的图像处理
- 图像编码/图像解码方法以及图像编码/图像解码装置
- 图像处理装置、图像形成装置、图像读取装置、图像处理方法
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序以及图像解码程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序、以及图像解码程序
- 图像形成设备、图像形成系统和图像形成方法
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序