[发明专利]一种基于深度学习的目标区域检测方法有效

申请号：	201910099621.2	申请日：	2019-01-31
公开（公告）号：	CN109859190B	公开（公告）日：	2021-09-17
发明（设计）人：	张涛;郝兵;冯宇婷	申请（专利权）人：	北京工业大学
主分类号：	G06T7/00	分类号：	G06T7/00;G06N3/04;G06N3/08
代理公司：	北京思海天达知识产权代理有限公司 11203	代理人：	刘萍
地址：	100124 ***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于深度学习目标区域检测方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于深度学习的目标区域检测方法，其特征在于，包括以下步骤：

步骤1、获取带有标注的图像数据集，并对数据进行分析；

步骤2、利用图像增强技术，对所有正样本的数据进行预处理，以此增加样本的数量，以及丰富数据集的内容；

步骤3、用RetinaNet网络对经过预处理的正样本进行训练；

步骤4、RetinaNet本质上是由resnet+FPN+两个FCN子网络组成的网络结构，resnet为模型的主干网络；将主干网络替换为ResNeXt50和DenseNet，分别采用ResNeXt50和DenseNet进行模型检测，两个模型检测的结果进行模型融合，模型融合就是将两个模型输出的结果放在一块；对所有的预测框进行NMS非极大值抑制，IOU阈值设置为0.7，IOU的值就是两个预测框的交集除以两个预测框的并集的值，NMS就是对所有的框进行一一比较，如果两个框的交集大于IOU设置的阈值，则保留得分最大的框，删除另外的框。

2.根据权利要求1所述的一种基于深度学习的目标区域检测方法，其特征在于模型主干网络的改动；

ResNeXt50具体如下：通过网络拆分，4个卷积核一组，32个path的输出向量按照pixel-wise求和即所有通道对应位置点相加，然后再与输入的feature map相加；

DenseNet的模块结构具体如下：让网络中的每一层都直接与其前面层相连，实现特征的重复利用，同时网络的每一层只学习一个特征图。

3.根据权利要求1所述的一种基于深度学习的目标区域检测方法，其特征在于，模型FPN结构的改动：

自底向上其实就是网络的前向过程，在前向过程中，feature map的大小会发生改变；

自顶向下的过程采用上采样进行，而横向连接则是将上采样的结果和自底向上生成的相同大小的feature map进行融合；在融合之后还会再采用3*3的卷积核对每个融合结果进行卷积，生成的feature map结果是P2，P3，P4，P5，和原来自底向上的卷积结果C2，C3，C4，C5一一对应；

对于P3，P4，P5，P6，P7这些层，定义anchor的大小为64*64，128*128，256*256，512*512，1024*1024，另外每个scale层都有3个长宽对比度：1∶2，1∶1，2∶1；所以整个特征金字塔有3*5＝15种anchor；

网络的P3，P4，P5，P6，P7下面为两个分支，分类和回归；P3，P4，P5，P6，P7下面的分类和回归是相同的；这里传入的是一个50*50*2048的特征向量，其中卷积核为2048，卷积设计成3个卷积融合的形式，其中从左到右依次为1*3*12，3*3*12和3*1*12的卷积，这样卷积融合后总卷积核数仍然为36。

4.根据权利要求1所述的一种基于深度学习的目标区域检测方法，其特征在于，增加focal loss损失函数，focal Loss损失函数的计算公式FL(p_t)＝-α_t(1-p_t)^γlog(p_t)，其中pt是不同类别的分类概率，γ＝2、α_t＝0.25。

5.根据权利要求1所述的一种基于深度学习的目标区域检测方法，其特征在于，输入一张图像后首先进入训练集生成器，训练集生成器做了三件事；第一读取训练图片，第二对数据进行数据增强，负5到正5度的旋转，随机左右10％的翻转，随机改变亮度以及对比度，第三把图片缩放到800*800*3；

然后进入检测算法，从输入图像到c1做的操作依次为，一个7*7卷积核为64的卷积，batch normalization，Relu，3*3步长为2的最大池化；这时变为c1，c1的维度形式为200*200*64；c1到c2进行特征的升维，c2的维度形式为200*200*256；c2到c3，c3到c4，c4到c5进行了步长为2的最大池化，所以每次feature的宽高都变为了原来的一半；c5之后是1024*1024的全连接和一个softmax分类器，然后增加全局损失函数，全局损失函数使用focalloss损失函数；

接下来算法进入FPN的结构，c3，c4，c5分别通过一个1*1卷积核为256的卷积生成c3_reduced，c4_reduced，c5_reduced；c5_reduced进行一个双线性插值处理变为P5_upsampled，c4_reduced和P5_upsampled进行add卷积融合生成p4_merged；同样的方式，p4_merged进行一个双线性插值处理变为p4_upsampled，P4_upsampled的feature map的大小跟c3_reduced相同，c3_reduced和p4_upsampled进行add卷积融合生成p3_merged；p3，p4，p5分别由p3_merged，p4_merged，p5_upsampled经过一个3*3卷积核为256的卷积得到；p6由c5经过一个3*3卷积核为256的卷积得到，p7由p6经过一个3*3卷积核为256的卷积得到；

p3，p4，p5，p6，p7后面分别跟一个分类和一个回归的分支，每个分类和回归的分支是相同的；p3，p4，p5，p6，p7分别经过一个3*3卷积核为256的卷积后进入分类的分支，这时候的feature map为50*50*256，然后经过一个3*3卷积核为36周围补零的卷积，保持featuremap形状不变；最后进入特征归一化，把feature map的形状变为符合分类的格式；把之前的feature map变为维度为81的特征向量，进行分类；在回归层，p3，p4，p5，p6，p7分别经过一个3*3卷积核为256的卷积后进入回归的分支，回归分支从左到右依次为1*3*12，3*3*12和3*1*12的卷积，这样卷积融合后总的卷积核个数仍然为36，会把之前的feature map变为维度为4的特征向量进行回归。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于北京工业大学，未经北京工业大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201910099621.2/1.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06T 一般的图像数据处理或产生
G06T7-00 图像分析，例如从位像到非位像
G06T7-20 .运动分析
G06T7-40 .结构分析
G06T7-60 .图形属性的分析，例如一个图像的区域、重心、周边

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于深度学习的目标区域检测方法有效

专利文献下载