[发明专利]一种基于主体推断的多标签图像检索方法有效
申请号: | 202010515544.7 | 申请日: | 2020-06-09 |
公开(公告)号: | CN111723223B | 公开(公告)日: | 2021-05-18 |
发明(设计)人: | 李福亮;成汶霖;王兴伟 | 申请(专利权)人: | 东北大学 |
主分类号: | G06F16/53 | 分类号: | G06F16/53;G06F16/55;G06F16/58;G06K9/32;G06K9/62;G06N3/04;G06N3/08;G06T7/11;G06T7/70 |
代理公司: | 沈阳优普达知识产权代理事务所(特殊普通合伙) 21234 | 代理人: | 陈曦 |
地址: | 110169 辽*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 主体 推断 标签 图像 检索 方法 | ||
本发明公开一种基于主体推断的多标签图像检索方法,该方法包括多标签图像数据集的准备及预处理、初步特征提取、物体识别及粗粒度分割、物体关系特征提取、物体主次推断以及哈希编码。数据集包含的物体类别及位置标签用于图像中物体识别和粗粒度分割过程的训练,而图像所属类别标签用于物体主体推断和哈希编码过程的训练。本发明方法能够通过对多标签图像中多物体的关系进行分析推断,得到多物体的主次关系,并编码到哈希码中,从而有效提高了多标签图像检索的准确性。
技术领域
本发明属于多标签图像检索的计算机分析技术领域,涉及一种基于主体推断的多标签图像检索方法。
背景技术
多标签图像检索是基于内容的图像检索技术中一个重要研究点,基于此技术,以图搜图、网购找同款等应用得到大量普及和发展。
多标签图像因包含多类物体而使得难以对图像的类别进行准确判断,进而用于查询时就难以得到准确的检索结果。针对此问题,现有方法大都基于深度学习方法直接学习得到哈希编码,其要么综合多层次图像特征,要么利用用户查询会话的上下文信息等提高哈希编码的准确性,然而,尚未考虑到图像中多个物体的主要次要关系,而这对检索的准确度是非常重要的。本发明通过推断多物体的主次关系,进而可以按照重要性进行排序,相对已有方法能得到更准确的检索结果。
发明内容
为解决上述技术问题,本发明的目的是提供一种基于主体推断的多标签图像检索方法,该方法可以根据物体间的位置关系等有效推断出物体主次关系,并将其编码到哈希码中,实现准确高效的多标签图像检索。
本发明的一种基于主体推断的多标签图像检索方法,包括:
步骤1:多标签图像样本数据集的准备和预处理,包括公共数据集的样本筛选、尺度归一化处理、去均值处理和增强处理;
步骤2:对预处理后的多标签图像进行基于二值特征图和边框提议的多物体粗粒度分割;
步骤3:对多标签图像的粗粒度分割结果,提取同类物体数目、物体居中程度、物体区域大小以及物体相对远近关系四种多物体关系特征,且都构造成等长向量的形式;
步骤4:利用四种物体关系特征进行基于GRU的主体推断,得到多标签图像中多个物体的主次关系,主次关系体现了物体对图像所属类别的贡献程度;
步骤5:基于物体主次关系构造用于检索的哈希编码;
步骤6:多标签图像检索。
在本发明的基于主体推断的多标签图像检索方法中,所述步骤1中的样本筛选要从公开数据集中筛选出具有多个物体标签的图像。
在本发明的基于主体推断的多标签图像检索方法中,所述步骤2具体包括:
步骤2.1:基于卷积神经网络的初步图像特征提取,得到一列特征图;
步骤2.2:对步骤2.1得的特征图经过1×1卷积变换成一个特征图F,再按式(1)对F中所有像素进行Softmax归一化处理,得到特征图S,进而通过阈值函数(2)将其变换为二值特征图T:
其中,si,j和fi,j分别表示S和F中第i行j列的像素值,是预定义参数;
步骤2.3:基于RPN网络对图像进行边框提议,将得到的候选框与全图的二值特征图进行交运算,候选框能够辅助二值特征图分隔出每个物体区域,二值特征图也能反过来辅助筛选出候选框;
步骤2.4:对候选框,用平滑一范数损失函数进行边框回归,得到能更准确指明物体位置的矩形标定框;
步骤2.5:对筛选出的标定框,通过交叉熵损失函数,进行Softmax分类。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东北大学,未经东北大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010515544.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种潜在电力能效服务客户的研判方法
- 下一篇:一种过滤装置及半导体加工设备