[发明专利]一种基于多个语义层次的图片检索方法及系统有效
申请号: | 201710078579.7 | 申请日: | 2017-02-14 |
公开(公告)号: | CN107066520B | 公开(公告)日: | 2021-05-18 |
发明(设计)人: | 胡焜;白洪亮;董远 | 申请(专利权)人: | 苏州飞搜科技有限公司 |
主分类号: | G06F16/53 | 分类号: | G06F16/53;G06N3/02 |
代理公司: | 北京知果之信知识产权代理有限公司 11541 | 代理人: | 龚洁 |
地址: | 215123 江苏省苏州市苏州工*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 语义 层次 图片 检索 方法 系统 | ||
本发明公开了一种基于多个语义层次的图片检索方法及系统,方法包括:将待检索的图片输入一预训练模型,并输入所述图片的像素值和带有局部区域信息的候选区域,在所述预训练模型的神经网络中,通过将所述图片中的所述候选区域映射到每一个卷积层输出的卷积特征图上后根据候选区域的大小自适应调整池化核的大小,得到相同维度的所述卷积特征图;根据所述卷积特征图对低、中、高卷积层进行区域感知的多层次池化计算,再通过串联得到不同层次的特征融合;根据特征融合结果,对图片进行检索。本发明中的特征同时包含局部信息以及全局信息,同时包含视觉信息以及语义信息,从而提高图片检索的准确率,另外,单次的前馈计算操作保证了高效率。
技术领域
本发明涉及神经网络、图像处理领域,特别涉及一种基于多个语义层次的图片检索方法及系统。
背景技术
现如今用于图片检索的特征提取方法主要分为两种:基于传统特征以及基于卷积神经网络。其中,基于传统特征的方法由于图片特征都是手工设计的,表达能力很弱同时特征维度很高。此外,目前大多数基于卷积神经网络的方法是提取网络中的单层特征,其中全连接层的特征用得最多,而这些方法忽略了卷积特征图中丰富的局部信息,并且忽略了网络中低层特征图所包含的视觉信息。
具体而言,现有的用于图片检索的特征提取方法概括如下:
1,传统特征(SIFT)以及特征聚合(VLAD,Fisher Vector),缺点在于:特征维度高,特征表达能力弱,检索准确率低。
2,卷积神经网络(通过预训练以及全连接层特征),缺点在于:特征纬度高,特征缺乏局部信息,特征缺乏低层视觉信息。
发明内容
本发明要解决的技术问题是,提供了提高图片检索的准确率同时保证高效率的基于多个语义层次的图片检索方法。
解决上述技术问题,本发明提供了一种基于多个语义层次的图片检索方法,包括如下步骤:
将待检索的图片输入一预训练模型,并输入所述图片的像素值和带有局部区域信息的候选区域,
在所述预训练模型的神经网络中,通过将所述图片中的所述候选区域映射到每一个卷积层输出的卷积特征图上后根据候选区域的大小自适应调整池化核的大小,得到相同维度的所述卷积特征图;
根据所述卷积特征图对低、中、高卷积层进行区域感知的多层次池化计算,再通过串联得到不同层次的特征融合;
根据特征融合结果,对图片进行检索。
本发明是在预训练模型的基础上,通过结合局部区域信息以及融合不同层特征,提高图片检索的准确性同时保证高效率。
更进一步,通过将所述图片中的所述候选区域映射到每一个卷积层输出的卷积特征图上的具体方法如下:
待检索的图片为原始图片,设原始图片的大小为:W*H,卷积特征图的维度为:W0*H0*C,每个区域对应输出的特征图大小为:Wr*Hr*C,对于一个原始图片的候选区域(x,y,w,h),进行如下的计算:
其中,表示输出特征图中的某一个特征,表示原特征图中对应区域的特征集合。
更进一步,根据候选区域的大小自适应地调整池化核的大小,得到相同维度的所述卷积特征图的方法为:
通过一个多尺度的池化计算提取候选区域不同位置的特征,再经过跨通道的归一化之后,最后通过相加操作得到最后的特征。
多尺度的池化计算中对于多尺度为:对同一个特征图用不同大小的核进行池化计算,使得得到的特征包含不同尺度的信息。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏州飞搜科技有限公司,未经苏州飞搜科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710078579.7/2.html,转载请声明来源钻瓜专利网。