[发明专利]基于注意力机制下特征金字塔的深度哈希图像检索方法在审
申请号: | 202010282573.3 | 申请日: | 2020-04-12 |
公开(公告)号: | CN111625675A | 公开(公告)日: | 2020-09-04 |
发明(设计)人: | 李泽超;孙燮;金露 | 申请(专利权)人: | 南京理工大学 |
主分类号: | G06F16/583 | 分类号: | G06F16/583;G06K9/62;G06N3/04 |
代理公司: | 南京理工大学专利中心 32203 | 代理人: | 陈鹏 |
地址: | 210094 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 注意力 机制 特征 金字塔 深度 希图 检索 方法 | ||
本发明公开了一种基于注意力机制下特征金字塔的深度哈希图像检索方法,包含图像数据集预处理、基于注意力机制下特征金字塔网络的构建、训练哈希层编码、测试检索性能四个过程,该方法旨在结合注意力机制和特征金字塔两个模块去提取具有局部显著视觉信息、多层语义信息的图像高维特征,并将其映射成低维汉明空间的哈希值来进行相似图像的检索。本发明提出的将注意力模块和特征金字塔模块结合的深度哈希方法可以充分挖掘局部显著视觉信息和多层语义信息来获取高质量的图像特征,并将高维的图像特征映射成低维哈希值来进行图像相似性检索,通过实验对比,检索性能优于大部分同类哈希方法。
技术领域
本发明涉及计算机视觉领域,特别是一种基于注意力机制下特征金字塔的深度哈希图像检索方法。
背景技术
图像检索是计算机视觉领域中至关重要的一个方向,其目的是通过提取图像特征来检索与其相似的图像,从而代替人眼的客观判断。图像检索可以分为两类:基于文本的图像检索和基于内容的图像检索。基于内容的图像检索是依据提取的图像特征来寻找语义内容上最相近的图像。
近年来由于表示学习的有效性,深度哈希方法在基于内容的图像检索中越来越受到重视。深度哈希方法是通过一个训练成熟的端到端的深度神经网络将学习到的高维图片特征映射成紧凑的二进制编码,从而在低维的汉明空间进行相似性检索。但是,现有的深度哈希方法在提取特征时只对哈希学习的最后一层的原始特征信息进行编码处理,忽略了图像的浅层信息,同时也未关注图像局部显著信息的问题。
发明内容
本发明的目的在于提供一种基于注意力机制下特征金字塔的深度哈希图像检索方法。
实现本发明的技术解决方案为:一种基于注意力机制下特征金字塔的深度哈希图像检索方法,包括:
图像数据集预处理:将数据集分成训练集和测试集,对训练集随机抽取一定比例的正负样本;
基于注意力机制下特征金字塔网络的构建:将神经网络最后两个卷积层经过最大池化获取该层多个尺寸大小的特征图构建特征金字塔,然后对不同尺寸的特征图根据注意力机制的计算公式对局部显著信息加权,非显著信息抑制;对每个特征金字塔的多尺寸特征图采取自顶及下的融合策略输出与该卷积层原始尺寸大小一样的特征张量,并将最后两个特征金字塔输出的张量合并成一个最终的高维特征输入到哈希层;
训练哈希层编码:在哈希层中设置两个损失函数:一个交叉熵损失函数用来使网络逼近学习最具判别力的图像特征,一个均方差损失函数用来学习最优的哈希值;
测试检索性能:在深度神经网络训练完毕后,分别将训练集和测试集作为网络输入进行哈希映射,得到两个存有哈希值的.mat文件进行测试;测试检索性能时的训练集作为base数据集,测试集作为待检索数据集,进行性能测试。
与现有技术相比,本发明的显著优点为:本发明提出一种全新的结合空间金字塔和注意力机制来提取图像特征并生成哈希编码的方法,该方法利用两层特征金字塔来联合挖掘图像浅层信息与深层信息,并通过特征金字塔内不同尺寸的特征图来实现不同大小的感知野获取图像信息;通过注意力机制来加强图像显著部分信息;通过实验对比,检索性能优于同类哈希方法。
附图说明
图1为基于注意力机制下特征金字塔网络的基本框架图。
具体实施方式
本发明的一种基于注意力机制下特征金字塔的深度哈希图像检索方法,包括:
图像数据集预处理:将数据集分成训练集和测试集,对训练集随机抽取一定比例的正负样本;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京理工大学,未经南京理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010282573.3/2.html,转载请声明来源钻瓜专利网。