[发明专利]一种图像检索方法、装置、计算机设备及存储介质在审
申请号: | 202110841488.0 | 申请日: | 2021-07-26 |
公开(公告)号: | CN113297410A | 公开(公告)日: | 2021-08-24 |
发明(设计)人: | 丁冬睿;姚丽;杨光远;逯天斌;房体品 | 申请(专利权)人: | 广东众聚人工智能科技有限公司 |
主分类号: | G06F16/583 | 分类号: | G06F16/583;G06F16/535;G06K9/62;G06N3/04 |
代理公司: | 北京中和立达知识产权代理事务所(普通合伙) 11756 | 代理人: | 张攀 |
地址: | 519000 广东省珠海*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 图像 检索 方法 装置 计算机 设备 存储 介质 | ||
本发明公开了一种图像检索方法、装置、计算机设备及存储介质。该方法包括:获取待检索图像和文本;利用VGGNet网络模型提取图像特征;提取文本的Word2vec特征和TF‑IDF特征并进行深度串联,得到文本特征;对图像特征与文本特征进行融合,构建残差特征和门特征,并按照权重线性组合,得到融合特征;通过度量学习的方法,对权重进行学习,得到最终权重;将待检索图像的最终融合特征作为待检索特征,计算与检索数据库内的多个图像的检索特征之间的相似性度,返回符合检索要求的图像。该方法基于图像和文本两种模态类型的数据,实现了不同模态数据的信息融合,并利用融合后的信息完成检索任务,从而提升检索的性能。
技术领域
本发明实施例涉及图像检索技术领域,尤其涉及一种图像检索方法、装置、计算机设备及存储介质。
背景技术
在网络时代,随着各种社交网络的兴起,文字、图片、音频、视频等不同类型的信息也出现了大规模的增加,这些不同模态的数据能够从不同的角度去阐释同一种物体或事件,从而让人们对其的理解变得越来越完善。怎样利用不同模态的数据去完成特别场景下的具体任务,也成为了研究热点。随着多模态数据的递增,普通用户想更加准确高效地检索出自己所需的信息也开始越来越复杂。图像检索中的多模态数据包括图像的文字描述和图像表现。
图像检索技术主要分两种:基于文本的图像检索(Text-Based Image Retrieval,简称为TBIR)以及基于内容的图像检索(Content-Based Image Retrieval,简称为CBIR)。TBIR主要依赖于图像的标注信息进行检索,但是面对数以万计的图像数据集,手工进行图像标注的代价太过昂贵,使得这种检索方案渐已不能满足现实的应用需要。CBIR主要利用特征提取和高维索引技术进行图像检索,但由于计算机获取的图像的视觉信息与用户对图像理解的语义信息可能不一致,导致的低层和高层检索需求之间产生距离,即导致“语义鸿沟”。在CBIR中,由于语义鸿沟的存在,特征相似的图像很可能在语义上是不相关的,这就使得很多情况下基于内容的图像检索结果难以满足用户的信息需求。
发明内容
本发明提供一种图像检索方法、装置、计算机设备及存储介质,以解决现有技术中存在的上述问题。
第一方面,本发明实施例提供了一种图像检索方法。该方法包括:
S10:获取待检索图像,以及所述待检索图像对应的文本;
S20:利用VGGNet网络模型提取所述待检索图像的图像特征;
S30:提取所述文本的词向量(Word to Vector,简称为Word2vec)特征和词频-逆文本频率(Term Frequency–Inverse Document Frequency,简称为TF-IDF)特征,将所述Word2vec特征和所述TF-IDF特征进行深度串联,得到所述待检索图像的文本特征;
S40:对所述图像特征与所述文本特征进行融合,构建所述待检索图像的残差特征和门特征,其中,所述残差特征和所述门特征的空间结构一致;将所述残差特征和所述门特征按照权重线性组合,得到所述待检索图像的融合特征;
S50:获取训练数据集,其中,所述训练数据集中包括多个训练图像以及各自对应的文本;通过度量学习的方法,利用所述多个训练图像的融合特征和各自的检索目标特征,对所述残差特征与所述门特征在所述融合特征中的权重进行学习,得到最终权重;
S60:将所述待检索图像的残差特征和门特征按照所述最终权重线性组合,得到所述待检索图像的最终融合特征,将所述最终融合特征作为待检索特征,计算所述待检索特征与检索数据库内的多个图像的检索特征之间的相似性度,返回所述多个图像中符合检索要求的图像。
在一实施例中,所述VGGNet网络模型的参数配置包括如下步骤:
S11:利用ImageNet数据集对所述VGGNet网络模型进行预训练,得到预训练网络参数;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广东众聚人工智能科技有限公司,未经广东众聚人工智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110841488.0/2.html,转载请声明来源钻瓜专利网。
- 彩色图像和单色图像的图像处理
- 图像编码/图像解码方法以及图像编码/图像解码装置
- 图像处理装置、图像形成装置、图像读取装置、图像处理方法
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序以及图像解码程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序、以及图像解码程序
- 图像形成设备、图像形成系统和图像形成方法
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序