[发明专利]一种基于视觉注意力机制的图像特征表达方法及系统在审

申请号：	201910818508.5	申请日：	2019-08-30
公开（公告）号：	CN110704665A	公开（公告）日：	2020-01-17
发明（设计）人：	段凌宇;白燕;楼燚航	申请（专利权）人：	北京大学
主分类号：	G06F16/583	分类号：	G06F16/583;G06F16/532;G06N3/04;G06N3/08
代理公司：	11619 北京辰权知识产权代理有限公司	代理人：	刘广达
地址：	100871***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	目标图片特征提取注意力计算机视觉领域视觉注意力传统算法距离度量距离最近目标检索图片输入图像特征网络模型网络实现多尺度准确率图片检索一体化展示
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明涉及计算机视觉领域，特别涉及一种基于视觉注意力机制的图像特征表达方法及系统。包括将图片输入训练好的深度网络模型对图片进行特征提取，得到该图片的注意力特征值，计算图片的特征值与目标图片特征值的距离，选择距离最近的若干目标图片展示。本发明利用多尺度注意力网络实现特征提取、距离度量一体化的目标检索检索框架，与传统算法相比，处理速度和准确率均得到较好提升。

技术领域

本发明涉及计算机视觉领域，特别涉及一种基于视觉注意力机制的图像特征表达方法及系统。

背景技术

图像检索旨在从图像数据集中检索一个与给定查询图像相同的描述特定目标的图像,它已经获得了很多研究的关注。近年来卷积神经网络的成功极大地促进了图像检索的进步,得益于可辨别能力与紧凑的表现能力。尽管基于深度学习的图像描述符已经获得了显著的性能提升。但是实际应用中仍然存在背景干扰和尺度变化这两个挑战。首先，杂乱干扰作为无关信息会极大地影响用于图像检索的信息区域上的特征表示；其次,查询和参考图像中的兴趣/目标对象在尺度上通常是不同的。在这项工作中,我们主要聚焦利用图像中富含信息区域的多尺度特征表示。

在实际场景应用中，背景干扰会严重的影响特征匹配的过程,对于图像检索,关注图像中富含信息区域有利于产生高效的特征。最近,基于CNN的特征大多是使用孪生网络或三元组网络训练成全局描述符。这些全局特征是直接对最后一个卷积层的输出采用最大或平均池化层操作提取的,它很难处理复杂场景。这是因为图像中的目标对象大多未对齐,在某些极端情况下甚至只占一小部分。因此,选择性地关注某些区域并忽略不相关的区域是非常必要的。这种选择性关注的方案也被称为注意力机制,它已被证明在各种研究领域都是有效的。比如机器翻译,语音识别,和图像描述。一个在CNN中应用的典型注意力机制是预测注意力图,其中每个注意力图上的值指示相应位置的信息量。

尺度是影响图像检索中特征表示的主要因素,在不同的尺度上,注意的区域会有所不同。一个代表性的工作是尺度不变特征变换(SIFT),它在多尺度高斯金字塔中找到了极端响应作为图像匹配的特征点。然而在目前基于深度学习的方法中,尚未充分探索不同尺度关注区域之间相关性的多尺度上下文关系。当前用于生成尺度稳健特征的网络通常在训练阶段配备有数据增强(即随机调整大小或裁剪训练图像等)或者获得不同尺度输入图像的全连接特征作为最终特征。在一些极端情况下,当兴趣对象占据输入图像的一小部分时,在前向传播过程中,随着特征图的大小持续减小,很难保留响应,为了在不同尺度上进行可靠地注意,我们需要直观地获取多尺度的上下文信息。

发明内容

本发明实施例提供了一种基于视觉注意力机制的图像特征表达方法及系统，利用多尺度注意力网络实现特征提取、距离度量一体化的目标检索检索框架，与传统算法相比，处理速度和准确率均得到较好提升。

根据本发明实施例的第一方面，一种基于视觉注意力机制的图像特征表达方法，包括

将图片输入训练好的深度网络模型对图片进行特征提取，得到该图片的注意力特征值，

计算该图片的注意力特征值与目标图片特征值的距离，

选择距离最近的若干目标图片展示。

所述深度网络模型包括

分类网络，所述分类网络的部分卷积层中间插入一个视觉注意力模块，上一卷积层数据输出值通过视觉注意力模块处理后输入下一卷积层；

两层长短期记忆网络，且每一层的长短期记忆网络中LSTM模块与视觉注意力模块一一对应；

视觉注意力模块输出值输入于第一层长短期记忆网络的LSTM模块；第一层长短期记忆网络的LSTM模块的隐藏状态值输入于第二层长短期记忆网络的LSTM模块；

第二层长短期记忆网络的最后一个LSTM模块的输出值与分类网络的输出值计算得到所述的注意力特征值。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。