[发明专利]一种基于深度学习的目标区域检测方法有效

专利信息
申请号: 201910099621.2 申请日: 2019-01-31
公开(公告)号: CN109859190B 公开(公告)日: 2021-09-17
发明(设计)人: 张涛;郝兵;冯宇婷 申请(专利权)人: 北京工业大学
主分类号: G06T7/00 分类号: G06T7/00;G06N3/04;G06N3/08
代理公司: 北京思海天达知识产权代理有限公司 11203 代理人: 刘萍
地址: 100124 *** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 深度 学习 目标 区域 检测 方法
【权利要求书】:

1.一种基于深度学习的目标区域检测方法,其特征在于,包括以下步骤:

步骤1、获取带有标注的图像数据集,并对数据进行分析;

步骤2、利用图像增强技术,对所有正样本的数据进行预处理,以此增加样本的数量,以及丰富数据集的内容;

步骤3、用RetinaNet网络对经过预处理的正样本进行训练;

步骤4、RetinaNet本质上是由resnet+FPN+两个FCN子网络组成的网络结构,resnet为模型的主干网络;将主干网络替换为ResNeXt50和DenseNet,分别采用ResNeXt50和DenseNet进行模型检测,两个模型检测的结果进行模型融合,模型融合就是将两个模型输出的结果放在一块;对所有的预测框进行NMS非极大值抑制,IOU阈值设置为0.7,IOU的值就是两个预测框的交集除以两个预测框的并集的值,NMS就是对所有的框进行一一比较,如果两个框的交集大于IOU设置的阈值,则保留得分最大的框,删除另外的框。

2.根据权利要求1所述的一种基于深度学习的目标区域检测方法,其特征在于模型主干网络的改动;

ResNeXt50具体如下:通过网络拆分,4个卷积核一组,32个path的输出向量按照pixel-wise求和即所有通道对应位置点相加,然后再与输入的feature map相加;

DenseNet的模块结构具体如下:让网络中的每一层都直接与其前面层相连,实现特征的重复利用,同时网络的每一层只学习一个特征图。

3.根据权利要求1所述的一种基于深度学习的目标区域检测方法,其特征在于,模型FPN结构的改动:

自底向上其实就是网络的前向过程,在前向过程中,feature map的大小会发生改变;

自顶向下的过程采用上采样进行,而横向连接则是将上采样的结果和自底向上生成的相同大小的feature map进行融合;在融合之后还会再采用3*3的卷积核对每个融合结果进行卷积,生成的feature map结果是P2,P3,P4,P5,和原来自底向上的卷积结果C2,C3,C4,C5一一对应;

对于P3,P4,P5,P6,P7这些层,定义anchor的大小为64*64,128*128,256*256,512*512,1024*1024,另外每个scale层都有3个长宽对比度:1∶2,1∶1,2∶1;所以整个特征金字塔有3*5=15种anchor;

网络的P3,P4,P5,P6,P7下面为两个分支,分类和回归;P3,P4,P5,P6,P7下面的分类和回归是相同的;这里传入的是一个50*50*2048的特征向量,其中卷积核为2048,卷积设计成3个卷积融合的形式,其中从左到右依次为1*3*12,3*3*12和3*1*12的卷积,这样卷积融合后总卷积核数仍然为36。

4.根据权利要求1所述的一种基于深度学习的目标区域检测方法,其特征在于,增加focal loss损失函数,focal Loss损失函数的计算公式FL(pt)=-αt(1-pt)γlog(pt),其中pt是不同类别的分类概率,γ=2、αt=0.25。

5.根据权利要求1所述的一种基于深度学习的目标区域检测方法,其特征在于,输入一张图像后首先进入训练集生成器,训练集生成器做了三件事;第一读取训练图片,第二对数据进行数据增强,负5到正5度的旋转,随机左右10%的翻转,随机改变亮度以及对比度,第三把图片缩放到800*800*3;

然后进入检测算法,从输入图像到c1做的操作依次为,一个7*7卷积核为64的卷积,batch normalization,Relu,3*3步长为2的最大池化;这时变为c1,c1的维度形式为200*200*64;c1到c2进行特征的升维,c2的维度形式为200*200*256;c2到c3,c3到c4,c4到c5进行了步长为2的最大池化,所以每次feature的宽高都变为了原来的一半;c5之后是1024*1024的全连接和一个softmax分类器,然后增加全局损失函数,全局损失函数使用focalloss损失函数;

接下来算法进入FPN的结构,c3,c4,c5分别通过一个1*1卷积核为256的卷积生成c3_reduced,c4_reduced,c5_reduced;c5_reduced进行一个双线性插值处理变为P5_upsampled,c4_reduced和P5_upsampled进行add卷积融合生成p4_merged;同样的方式,p4_merged进行一个双线性插值处理变为p4_upsampled,P4_upsampled的feature map的大小跟c3_reduced相同,c3_reduced和p4_upsampled进行add卷积融合生成p3_merged;p3,p4,p5分别由p3_merged,p4_merged,p5_upsampled经过一个3*3卷积核为256的卷积得到;p6由c5经过一个3*3卷积核为256的卷积得到,p7由p6经过一个3*3卷积核为256的卷积得到;

p3,p4,p5,p6,p7后面分别跟一个分类和一个回归的分支,每个分类和回归的分支是相同的;p3,p4,p5,p6,p7分别经过一个3*3卷积核为256的卷积后进入分类的分支,这时候的feature map为50*50*256,然后经过一个3*3卷积核为36周围补零的卷积,保持featuremap形状不变;最后进入特征归一化,把feature map的形状变为符合分类的格式;把之前的feature map变为维度为81的特征向量,进行分类;在回归层,p3,p4,p5,p6,p7分别经过一个3*3卷积核为256的卷积后进入回归的分支,回归分支从左到右依次为1*3*12,3*3*12和3*1*12的卷积,这样卷积融合后总的卷积核个数仍然为36,会把之前的feature map变为维度为4的特征向量进行回归。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京工业大学,未经北京工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201910099621.2/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top