[发明专利]图像处理方法、装置、电子设备和计算机存储介质有效
申请号: | 201910124385.5 | 申请日: | 2019-02-18 |
公开(公告)号: | CN109829506B | 公开(公告)日: | 2021-03-23 |
发明(设计)人: | 金鑫;魏秀参;赵博睿;谢烟平 | 申请(专利权)人: | 南京旷云科技有限公司;徐州旷视数据科技有限公司;北京旷视科技有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 北京超凡志成知识产权代理事务所(普通合伙) 11371 | 代理人: | 安卫静 |
地址: | 210000 江苏省南京市*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 图像 处理 方法 装置 电子设备 计算机 存储 介质 | ||
本发明提供了一种图像处理方法、装置、电子设备和计算机存储介质,该方法包括:获取待处理图像,并对待处理图像进行特征提取,得到特征图;通过权重计算网络确定用于表示特征图的全局图像特征和局部图像特征的中间描述子,并基于中间描述子确定通道权重向量;利用通道权重向量对特征图进行通道加权处理,得到通道加权的特征图。在本发明中,权重计算网络确定的中间描述子即包含特征图的全局图像特征,又包含特征图的局部图像特征,进而基于该中间描述子确定的通道权重向量更加准确、科学,基于该科学、准确的通道权重向量确定的通道加权的特征图的效果好、准确性好,缓解了现有的通过SE网络改善特征图的方式效果差,准确性不好的技术问题。
技术领域
本发明涉及图像处理的技术领域,尤其是涉及一种图像处理方法、装置、电子设备和计算机存储介质。
背景技术
卷积神经网络(CNN)是计算机视觉任务(如图像分类、目标检测和语音分割)解决方案的核心。CNN已经被学术界和工业界从不同的方面进行了广泛的研究,这些研究成果极大地推动了CNN的性能。
其中一个研究课题是显式地重构卷积层输出的特征图的通道权重,以提高CNN的表示能力。其中,“挤压与激励”(Squeeze-and-Excitation,SE)网络通过引入SE模块(如图1),对CNN的表示能力表现出显著的改进。SE是一个计算单元,它选择性地增强特征通道上有用的特征通道并抑制不太有用的特征通道。
在图1中:将卷积层输出的特征图U先进行全局平均池化(S操作,即图1中的Fsq(.)),得到通道描述子(即图1中的前面的1×1×C的向量,用于表征特征通道上响应的全局分布),然后把通道描述子输入给两层的全连接层(E操作,即图1中的Fex(.,W)),得到通道权重向量(即图1中后面的1×1×C的向量),最后将通道权重向量与原来卷积层输出的特征图相乘(即图1中的Fscale(.,.)),进行数值的放缩来达到重新调整通道权重的效果。重新调整通道权重后,得到的特征图的表现提升,后续基于表现提升的特征图进行图像分析(比如,分类、检测和分割)时,也使得分析的结果更加准确。
但是,SE模块的一个缺点是S操作执行的是全局平均池化(Global AveragePooling,GAP),而全局平均池化所掩盖的局部特征对于识别不同通道是至关重要的。如图2所示,在没有局部信息的情况下,一些激活不当的噪声通道(如图2中的285通道和588通道)也可能具有高权重。如图2所示,图2中每行的中间图像和右边图像为不同的一对特征通道图像(其中,每行的中间图像为噪声通道,每行的右边图像为有用通道),但是全局平均池化后拥有相近的压缩响应,导致E模块难以区分这两个特征通道,从而对两个特征通道输出了相近的权重,这显然是不科学的(应该是让有用通道(比如,595通道和660通道)得到高的权重,噪声通道得到低(比如,285通道和588通道)的权重),采用不科学的权重与原来卷积层输出的特征图相乘时,将无法提升特征图的表现,最终得到的特征图也并无任何改善。
综上,现有的通过SE网络改善特征图的方式效果差,准确性不好。
发明内容
有鉴于此,本发明的目的在于提供一种图像处理方法、装置、电子设备和计算机存储介质,以缓解现有的通过SE网络改善特征图的方式效果差,准确性不好的技术问题。
第一方面,本发明实施例提供了一种图像处理方法,包括:获取待处理图像,并对所述待处理图像进行特征提取,得到特征图;通过权重计算网络确定用于表示所述特征图的全局图像特征和局部图像特征的中间描述子,并基于所述中间描述子确定通道权重向量;所述全局图像特征用于表示所述特征图的整体特征,所述局部图像特征用于表示所述特征图的局部特征,所述通道权重向量用于表示各个特征通道的重要程度;利用所述通道权重向量对所述特征图进行通道加权处理,得到通道加权的特征图,以根据所述通道加权的特征图进行图像分析。
进一步地,所述权重计算网络包括:池化层、全连接层和非线性激活层,其中,所述全连接层分别与所述池化层和所述非线性激活层相连接。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京旷云科技有限公司;徐州旷视数据科技有限公司;北京旷视科技有限公司,未经南京旷云科技有限公司;徐州旷视数据科技有限公司;北京旷视科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910124385.5/2.html,转载请声明来源钻瓜专利网。
- 彩色图像和单色图像的图像处理
- 图像编码/图像解码方法以及图像编码/图像解码装置
- 图像处理装置、图像形成装置、图像读取装置、图像处理方法
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序以及图像解码程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序、以及图像解码程序
- 图像形成设备、图像形成系统和图像形成方法
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序