[发明专利]一种基于可变形卷积神经网络的红外图像物体识别方法在审
申请号: | 201810316553.6 | 申请日: | 2018-04-10 |
公开(公告)号: | CN108564025A | 公开(公告)日: | 2018-09-21 |
发明(设计)人: | 肖立军;廖志伟;邹国惠;裴星宇;万新宇;李晨熙;韩玉龙;吴伟力;覃佳奎;姜媛 | 申请(专利权)人: | 广东电网有限责任公司;广东电网有限责任公司珠海供电局 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06N3/04;G06N3/08 |
代理公司: | 广州粤高专利商标代理有限公司 44102 | 代理人: | 林丽明 |
地址: | 510060 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 卷积神经网络 可变形 池化 红外图像 物体识别 采样 目标检测和识别 非线性变形 反向传播 几何变换 几何形变 空间形变 目标函数 图像识别 兴趣区域 测试集 分类器 卷积核 训练集 形变 构建 建模 卷积 学习 架构 视觉 引入 网络 成功 | ||
本发明公开了一种基于可变形卷积神经网络的红外图像物体识别方法,包括构建训练集与测试集,搭建卷积神经网络架构,在最后一层加上softmax分类器,设置目标函数,采用线性或非线性变形的卷积核进行采样并在池化层采用目前业界最好的基于规则块采样的兴趣区域(region of interests,ROI)池化方法进行池化操作;按经验设置学习率参数,能很容易进行标准反向传播端到端的训练,从而得到可变形卷积网络。经实验证明,本发明在卷积神经网络中引入了学习空间几何形变的能力,更好地解决了具有空间形变的图像识别任务。提高了卷积神经网络的几何变换建模的能力,在目标检测和识别这些视觉任务上的有效性,成功学习到空间上密集的几何形变。
技术领域
本发明涉及人机交互、计算机视觉领域及物体识别领域,更具体地,涉及一种基于可变形卷积神经网络的红外图像物体识别方法。
背景技术
体识别是计算机视觉中一个十分重要的研究领域,包含人脸识别、手写体数字识别、手势识别以及物体识别等,可以广泛地应用于人机交互、图像分类以及图像检索等领域。衡量一个物体识别系统好坏的两个主要指标为:识别率核识别速度。一般情况而言,识别率越高意味着识别速度相对较慢,而识别速度越快意味着识别率相对较低。因此,如何权衡而这的利弊一直是物体识别领域一个不可回避的问题。
物体识别系统主要包含特征提取、分类器判别等两个方面。近年来,卷积神经网络算法的发展极大地提高了物体识别技术的正确率,大部分已存在的卷积神经网络的深度结构改进方法大都趋向于调优网络的宽度与深度、改进激励函数、设计多样的卷积操作等等。2015年Simonyan和Zisserman提出VGG卷积神经网络,他们通过研究卷积神经网络的深度与大尺度图片识别精度的关系,提出了一个更深的卷积神经网络架构。通过调优网络的宽度与深度,达到了最当时最好的性能。2014年Min等人提出了一种深度网络结构叫做NIN卷积神经网络。在该网络结构中,作者引入了1*1的卷积操作,通过级联两层这样的卷积层,实现了多层感知器的功能,在拉深网络深度,调优网络宽度的同时,实现了当时最优的分类性能。
基于卷积神经网络的物体识别算法中,特征提取占据了物体识别的大部时间,特征提取的精确度也决定着算法的性能。然而上述方法的特征提取的精确度依然存在不可忽视的局限性。这些局限来自于卷积网络的基本构成单元,即卷积操作。该操作在输入图像的每个位置进行基于规则格点位置的采样,然后对于采样到的图像值做卷积并作为该位置的输出。为了削弱这个限制,本专利对卷积核中每个采样点的位置都增加了一个偏移的变量。通过这些变量,卷积核就可以在当前位置附近随意的采样,而不再局限于之前的规则格点。本发明扩展后的卷积操作称为可变形卷积。
发明内容
本发明的目的是解决上述一个或多个缺陷,提出一种基于可变形卷积神经网络的红外图像物体识别方法。
为实现以上发明目的,采用的技术方案是:
一种基于可变形卷积神经网络的红外图像物体识别方法,包括以下步骤:
S1:收集数据库样本并设定训练集与测试集,其中数据库样本采用COCO、PASCALVOC并设定类别和每一个类别在分类器中的编码,构建训练集;
S2:搭建卷积神经网络架构,通过交迭若干个卷积层和池化层设置卷积神经网络的深度与宽度架构;
S3:在卷积层采用可变形卷积核进行采样,通过加入一个额外的卷积层来学习offset偏移量,共享输入特征图,然后把输入特征图和训练得到的offset偏移量共同作为可变形卷积层的输入层,此时可变形卷积层采样点发生偏移,再进行卷积;
S4:在池化层采用可变形兴趣区域进行池化操作,其中ROI被分为n*n个bin,被输入到一个额外的全连接层学习offset,然后通过一个可变形兴趣区域池化层使每个bin发生偏移;
S5:在卷积神经网络的最后一层加上softmax分类器并设置目标函数;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广东电网有限责任公司;广东电网有限责任公司珠海供电局,未经广东电网有限责任公司;广东电网有限责任公司珠海供电局许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810316553.6/2.html,转载请声明来源钻瓜专利网。