[发明专利]一种基于级联下采样卷积神经网络的图像识别方法有效
申请号: | 202010640272.3 | 申请日: | 2020-07-06 |
公开(公告)号: | CN111832641B | 公开(公告)日: | 2021-08-27 |
发明(设计)人: | 徐国保;龙海旭;郭锦嘉;冯奕帆;刘阳;赵霞;王骥;李锦锐;陈泽林 | 申请(专利权)人: | 广东海洋大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 北京东方盛凡知识产权代理事务所(普通合伙) 11562 | 代理人: | 谢秀娟 |
地址: | 524088 *** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 级联 采样 卷积 神经网络 图像 识别 方法 | ||
1.一种基于级联下采样卷积神经网络的图像识别方法,其特征在于,包括如下步骤:
基于级联下采样卷积神经网络构建图像识别模型;所述基于级联下采样卷积神经网络包括主体网络和两个独立预测网络;所述主体网络包括若干个卷积层和若干个级联下采样块;每个所述独立预测网络包括类别预测子网络和边界框预测子网络;所述独立预测网络的预测结果通过非极大值抑制得到图像识别结果;
对构建的图像识别模型进行训练,通过训练好的图像识别模型进行图像识别;
所述级联下采样块的下采样层同时使用大小不同的若干种卷积核;每个下采样层同时采用最大池化和卷积层两种下采样方式,对不同卷积核大小的下采样层得到的特征图进行相加,每个下采样层通过最大池化和卷积层两种下采样方式得到的特征图采用拼接的方式拼接到一起;
所述类别预测子网络和边界框预测子网络分别采用Predict-17预测网络和Predict-9预测网络;所述Predict-17预测网络指输出结果的宽×高为17×17,即将待识别图像等分为17×17个格子;所述Predict-9预测网络指输出结果的宽×高为9×9,即将待识别图像等分为9×9个格子;每个格子对应一个输出向量,每个输出向量包括预测结果和置信度;
采用9个先验框简化待识别图像中目标宽高的回归,所述先验框的大小包括三种尺寸,每种尺寸的先验框分别对应三种不同的宽高比,在Predict-17和Predict-9中,先验框尺寸大小不同;
所述类别预测子网络中的类别标签采用One-Hot向量;所述类别预测子网络先预测父类,再预测父类所对应的子类。
2.根据权利要求1所述的基于级联下采样卷积神经网络的图像识别方法,其特征在于,所述主体网络还包括若干个残差块,所述残差块用于计算所述卷积层的层数;所述残差块采用Bottleneck构建残差网络;所述Bottleneck的结构包括两个卷积核大小为1×1的卷积层、1个卷积核大小为3×3的卷积层和两个激活函数。
3.根据权利要求1所述的基于级联下采样卷积神经网络的图像识别方法,其特征在于,所述边界框预测子网络通过待识别图像中目标中心点在格子中的相对位置、预测目标的宽和高确定待识别图像中目标的位置。
4.根据权利要求1所述的基于级联下采样卷积神经网络的图像识别方法,其特征在于,所述图像识别模型训练过程中,设定目标类别的权重。
5.根据权利要求1所述的基于级联下采样卷积神经网络的图像识别方法,其特征在于,对图像识别模型进行训练的具体方法包括:
对获取的图像数据集进行数据扩增处理,将数据扩增处理后的数据按照预设比例划分为训练集和测试集;
将训练集样本数据输入图像识别模型,对图像识别模型进行训练;训练过程中采用代价函数作为图像识别模型的评估指标,图像识别模型的代价函数J(x,y)的计算如式4所示:
其中,coord loss、conf loss、class loss分别表示坐标误差损失、正样本置信度误差损失和负样本置信度误差损失之和、分类误差损失,表示参数的二范数;τcoord、τconf、τcls和τreg分别表示坐标误差损失、正样本置信度误差损失和负样本置信度误差损失之和、分类误差损失、参数的二范数对图像识别模型代价函数的重要程度;
将测试集样本数据输入训练好的图像识别模型,对图像识别模型的精确度进行验证。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广东海洋大学,未经广东海洋大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010640272.3/1.html,转载请声明来源钻瓜专利网。