[发明专利]一种基于视觉注意力机制的图像特征表达方法及系统在审
申请号: | 201910818508.5 | 申请日: | 2019-08-30 |
公开(公告)号: | CN110704665A | 公开(公告)日: | 2020-01-17 |
发明(设计)人: | 段凌宇;白燕;楼燚航 | 申请(专利权)人: | 北京大学 |
主分类号: | G06F16/583 | 分类号: | G06F16/583;G06F16/532;G06N3/04;G06N3/08 |
代理公司: | 11619 北京辰权知识产权代理有限公司 | 代理人: | 刘广达 |
地址: | 100871*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 目标图片 特征提取 注意力 计算机视觉领域 视觉注意力 传统算法 距离度量 距离最近 目标检索 图片输入 图像特征 网络模型 网络实现 多尺度 准确率 图片 检索 一体化 展示 | ||
本发明涉及计算机视觉领域,特别涉及一种基于视觉注意力机制的图像特征表达方法及系统。包括将图片输入训练好的深度网络模型对图片进行特征提取,得到该图片的注意力特征值,计算图片的特征值与目标图片特征值的距离,选择距离最近的若干目标图片展示。本发明利用多尺度注意力网络实现特征提取、距离度量一体化的目标检索检索框架,与传统算法相比,处理速度和准确率均得到较好提升。
技术领域
本发明涉及计算机视觉领域,特别涉及一种基于视觉注意力机制的图像特征表达方法及系统。
背景技术
图像检索旨在从图像数据集中检索一个与给定查询图像相同的描述特定目标的图像,它已经获得了很多研究的关注。近年来卷积神经网络的成功极大地促进了图像检索的进步,得益于可辨别能力与紧凑的表现能力。尽管基于深度学习的图像描述符已经获得了显著的性能提升。但是实际应用中仍然存在背景干扰和尺度变化这两个挑战。首先,杂乱干扰作为无关信息会极大地影响用于图像检索的信息区域上的特征表示;其次,查询和参考图像中的兴趣/目标对象在尺度上通常是不同的。在这项工作中,我们主要聚焦利用图像中富含信息区域的多尺度特征表示。
在实际场景应用中,背景干扰会严重的影响特征匹配的过程,对于图像检索,关注图像中富含信息区域有利于产生高效的特征。最近,基于CNN的特征大多是使用孪生网络或三元组网络训练成全局描述符。这些全局特征是直接对最后一个卷积层的输出采用最大或平均池化层操作提取的,它很难处理复杂场景。这是因为图像中的目标对象大多未对齐,在某些极端情况下甚至只占一小部分。因此,选择性地关注某些区域并忽略不相关的区域是非常必要的。这种选择性关注的方案也被称为注意力机制,它已被证明在各种研究领域都是有效的。比如机器翻译,语音识别,和图像描述。一个在CNN中应用的典型注意力机制是预测注意力图,其中每个注意力图上的值指示相应位置的信息量。
尺度是影响图像检索中特征表示的主要因素,在不同的尺度上,注意的区域会有所不同。一个代表性的工作是尺度不变特征变换(SIFT),它在多尺度高斯金字塔中找到了极端响应作为图像匹配的特征点。然而在目前基于深度学习的方法中,尚未充分探索不同尺度关注区域之间相关性的多尺度上下文关系。当前用于生成尺度稳健特征的网络通常在训练阶段配备有数据增强(即随机调整大小或裁剪训练图像等)或者获得不同尺度输入图像的全连接特征作为最终特征。在一些极端情况下,当兴趣对象占据输入图像的一小部分时,在前向传播过程中,随着特征图的大小持续减小,很难保留响应,为了在不同尺度上进行可靠地注意,我们需要直观地获取多尺度的上下文信息。
发明内容
本发明实施例提供了一种基于视觉注意力机制的图像特征表达方法及系统,利用多尺度注意力网络实现特征提取、距离度量一体化的目标检索检索框架,与传统算法相比,处理速度和准确率均得到较好提升。
根据本发明实施例的第一方面,一种基于视觉注意力机制的图像特征表达方法,包括
将图片输入训练好的深度网络模型对图片进行特征提取,得到该图片的注意力特征值,
计算该图片的注意力特征值与目标图片特征值的距离,
选择距离最近的若干目标图片展示。
所述深度网络模型包括
分类网络,所述分类网络的部分卷积层中间插入一个视觉注意力模块,上一卷积层数据输出值通过视觉注意力模块处理后输入下一卷积层;
两层长短期记忆网络,且每一层的长短期记忆网络中LSTM模块与视觉注意力模块一一对应;
视觉注意力模块输出值输入于第一层长短期记忆网络的LSTM模块;第一层长短期记忆网络的LSTM模块的隐藏状态值输入于第二层长短期记忆网络的LSTM模块;
第二层长短期记忆网络的最后一个LSTM模块的输出值与分类网络的输出值计算得到所述的注意力特征值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京大学,未经北京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910818508.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种哈希检索方法
- 下一篇:一种提升跨视角车辆精确检索的方法及系统