[发明专利]一种非局域的图像分类装置、方法和存储介质有效
申请号: | 202110308766.6 | 申请日: | 2021-03-23 |
公开(公告)号: | CN113065586B | 公开(公告)日: | 2022-10-18 |
发明(设计)人: | 卢丽;孙亚楠;韩强;闫超 | 申请(专利权)人: | 四川翼飞视科技有限公司 |
主分类号: | G06V10/764 | 分类号: | G06V10/764;G06V10/774;G06V10/80;G06V10/82;G06N3/04;G06N3/08 |
代理公司: | 成都君合集专利代理事务所(普通合伙) 51228 | 代理人: | 尹玉 |
地址: | 610094 四川省成都市高新*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 局域 图像 分类 装置 方法 存储 介质 | ||
本发明公开了一种非局域的图像分类装置、方法和存储介质,所述卷积网络由从前至后依次连接的根部模块、若干个残差模块以及非局域模块、头部模块构成;所述非局域模块由从前至后依次连接的坐标拼接模块、键值生成模块、非局域注意力模块、注意力融合模块构成;所述坐标拼接模块用于将特征图上各特征点的绝对坐标信息加入到特征向量中;所述键值生成模块输出查询向量、键向量和值向量,并输入非局域注意力模块,处理得到注意力输出张量;所述注意力融合模块的输入为非局域模块的输入以及非局域注意力模块的输出。本发明通过非局域模块使输出的特征图上的所有特征点都可以获取到全局域的信息,精度改善明显,有效提升了网络的性能。
技术领域
本发明属于计算机机器视觉中的图像分类的技术领域,具体涉及一种非局域的图像分类装置、方法和存储介质。
背景技术
目前,计算机机器视觉中的神经网络技术被广泛的应用于图像分类、目标检测、图像分割、人脸识别、行为识别等众多领域。在这些领域中,图像分类是最为基础的技术。其他领域所使用的神经网络,大都利用图像分类的神经网络作为其主干网络,在添加其他功能模块之后实现。因此,高性能的图像分类网络对于基于神经网络技术的机器视觉非常的重要。
图像分类网络一般都基于卷积操作进行实现。卷积操作本质上是一个局域性的操作,卷积操作输出的特征图上的特征点,其感知野是局域的,即只能感知上一层等同与卷积核大小区域的特征信息。而常用网络的卷积核大小一般都偏小,取值常见为1x1,3x3,5x5等。虽然卷积网络可以通过堆叠卷积来增大理论感知野,但有很多研究都发现虽然深层卷积层的理论感知野很大,但实际上有效感知野仍然远小于理论值,导致卷积网络仍然在大程度上是一个偏局域的网络。这也限制了卷积网络精度提升。
Vision Transformer等基于全域信息的方法,则完全舍弃了卷积操作,需要大量的训练数据才能获得较好的性能。因此,急需找到一种能够保留卷积操作图像特征提取的高效率,同时改善其局域特性限制的方法。
发明内容
本发明的目的在于提供一种非局域的图像分类装置、方法和存储介质,旨在解决上述问题。本发明通过非局域模块使神经网络能够获得全局性的信息,改善卷积操作只能获取局域信息的缺陷,从而达到提升网络精度的目的。
本发明主要通过以下技术方案实现:
一种非局域的图像分类装置,包括数据采集模块、训练模块、分类模块,所述数据采集模块用于收集数据并形成训练样本;所述训练模块用于将训练样本输入图像分类网络进行训练得到最优图像分类模型;所述分类模块用于将待测图像输入最优图像分类模型并输入分类结果;所述图像分类网络由从前至后依次连接的根部模块、若干个残差模块以及非局域模块、头部模块构成,所述非局域模块由从前至后依次连接的坐标拼接模块、键值生成模块、非局域注意力模块、注意力融合模块构成;所述根部模块用于将输入的图像的像素信息转换并输出由特征信息组成的特征图;多个残差模块用于逐步提取特征图中更高层次的语义信息,并输出特征图至非局域模块;所述头部模块用于将包含语义的特征图转换为图像分类的结果;所述坐标拼接模块用于将特征图上各特征点的绝对坐标信息加入到特征向量中;所述键值生成模块用于生成查询向量、键向量和值向量,且输入至非局域注意力模块,计算特征图上每个特征点与所有特征点的相关性并生成注意力图;所述注意力融合模块用于将注意力图得到的信息反馈回特征图中,所述注意力融合模块的输入为非局域模块的输入以及非局域注意力模块的输出。
本发明中所述根部模块用于将输入图像的像素信息,转换为粗略的特征信息,输出为这些信息组成的特征图。所述残差模块采用了多个卷积操作,逐步的提取出包含更为精细,包含更丰富语义信息的特征信息,输出为这些信息组成的特征图。多个残差模块的叠加,会逐步的提取出更为高层次的语义信息。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于四川翼飞视科技有限公司,未经四川翼飞视科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110308766.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种内镜操作器械用自动操控装置
- 下一篇:一种新型弹性钢索护栏
- 彩色图像和单色图像的图像处理
- 图像编码/图像解码方法以及图像编码/图像解码装置
- 图像处理装置、图像形成装置、图像读取装置、图像处理方法
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序以及图像解码程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序、以及图像解码程序
- 图像形成设备、图像形成系统和图像形成方法
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序