[发明专利]一种基于级联下采样卷积神经网络的图像识别方法有效

申请号：	202010640272.3	申请日：	2020-07-06
公开（公告）号：	CN111832641B	公开（公告）日：	2021-08-27
发明（设计）人：	徐国保;龙海旭;郭锦嘉;冯奕帆;刘阳;赵霞;王骥;李锦锐;陈泽林	申请（专利权）人：	广东海洋大学
主分类号：	G06K9/62	分类号：	G06K9/62;G06N3/04;G06N3/08
代理公司：	北京东方盛凡知识产权代理事务所(普通合伙) 11562	代理人：	谢秀娟
地址：	524088 ***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于级联采样卷积神经网络图像识别方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于级联下采样卷积神经网络的图像识别方法，其特征在于，包括如下步骤：

基于级联下采样卷积神经网络构建图像识别模型；所述基于级联下采样卷积神经网络包括主体网络和两个独立预测网络；所述主体网络包括若干个卷积层和若干个级联下采样块；每个所述独立预测网络包括类别预测子网络和边界框预测子网络；所述独立预测网络的预测结果通过非极大值抑制得到图像识别结果；

对构建的图像识别模型进行训练，通过训练好的图像识别模型进行图像识别；

所述级联下采样块的下采样层同时使用大小不同的若干种卷积核；每个下采样层同时采用最大池化和卷积层两种下采样方式，对不同卷积核大小的下采样层得到的特征图进行相加，每个下采样层通过最大池化和卷积层两种下采样方式得到的特征图采用拼接的方式拼接到一起；

所述类别预测子网络和边界框预测子网络分别采用Predict-17预测网络和Predict-9预测网络；所述Predict-17预测网络指输出结果的宽×高为17×17，即将待识别图像等分为17×17个格子；所述Predict-9预测网络指输出结果的宽×高为9×9，即将待识别图像等分为9×9个格子；每个格子对应一个输出向量，每个输出向量包括预测结果和置信度；

采用9个先验框简化待识别图像中目标宽高的回归，所述先验框的大小包括三种尺寸，每种尺寸的先验框分别对应三种不同的宽高比，在Predict-17和Predict-9中，先验框尺寸大小不同；

所述类别预测子网络中的类别标签采用One-Hot向量；所述类别预测子网络先预测父类，再预测父类所对应的子类。

2.根据权利要求1所述的基于级联下采样卷积神经网络的图像识别方法，其特征在于，所述主体网络还包括若干个残差块，所述残差块用于计算所述卷积层的层数；所述残差块采用Bottleneck构建残差网络；所述Bottleneck的结构包括两个卷积核大小为1×1的卷积层、1个卷积核大小为3×3的卷积层和两个激活函数。

3.根据权利要求1所述的基于级联下采样卷积神经网络的图像识别方法，其特征在于，所述边界框预测子网络通过待识别图像中目标中心点在格子中的相对位置、预测目标的宽和高确定待识别图像中目标的位置。

4.根据权利要求1所述的基于级联下采样卷积神经网络的图像识别方法，其特征在于，所述图像识别模型训练过程中，设定目标类别的权重。

5.根据权利要求1所述的基于级联下采样卷积神经网络的图像识别方法，其特征在于，对图像识别模型进行训练的具体方法包括：

对获取的图像数据集进行数据扩增处理，将数据扩增处理后的数据按照预设比例划分为训练集和测试集；

将训练集样本数据输入图像识别模型，对图像识别模型进行训练；训练过程中采用代价函数作为图像识别模型的评估指标，图像识别模型的代价函数J(x,y)的计算如式4所示：

其中，coord loss、conf loss、class loss分别表示坐标误差损失、正样本置信度误差损失和负样本置信度误差损失之和、分类误差损失，表示参数的二范数；τ_coord、τ_conf、τ_cls和τ_reg分别表示坐标误差损失、正样本置信度误差损失和负样本置信度误差损失之和、分类误差损失、参数的二范数对图像识别模型代价函数的重要程度；

将测试集样本数据输入训练好的图像识别模型，对图像识别模型的精确度进行验证。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于广东海洋大学，未经广东海洋大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202010640272.3/1.html，转载请声明来源钻瓜专利网。

上一篇：一种交通建设用砂石筛选机及使用方法
下一篇：一种基于剪切气流和燃油喷射一体化的旋转爆震燃烧室

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06K 数据识别；数据表示；记录载体；记录载体的处理
G06K9-00 用于阅读或识别印刷或书写字符或者用于识别图形，例如，指纹的方法或装置
G06K9-03 .错误的检测或校正，例如，用重复扫描图形的方法
G06K9-18 .应用具有附加代码标记或含有代码标记的打印字符的，例如，由不同形状的各个笔画组成的，而且每个笔画表示不同的代码值的字符
G06K9-20 .图像捕获
G06K9-36 .图像预处理，即无须判定关于图像的同一性而进行的图像信息处理
G06K9-60 .图像捕获和多种预处理作用的组合

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于级联下采样卷积神经网络的图像识别方法有效

专利文献下载