[发明专利]一种基于对象规模感知的多标签图像检索方法和系统在审
申请号: | 202310002357.2 | 申请日: | 2023-01-03 |
公开(公告)号: | CN116127119A | 公开(公告)日: | 2023-05-16 |
发明(设计)人: | 谢延昭;魏如凯;刘渝;周可 | 申请(专利权)人: | 华中科技大学 |
主分类号: | G06F16/583 | 分类号: | G06F16/583;G06V10/44;G06V10/75;G06V10/82;G06N3/0455 |
代理公司: | 武汉臻诚专利代理事务所(普通合伙) 42233 | 代理人: | 宋业斌 |
地址: | 430074 湖北省武汉*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 对象 规模 感知 标签 图像 检索 方法 系统 | ||
1.一种基于对象规模感知的多标签图像检索方法,其特征在于,包括以下步骤:
(1)获取待检索图像以及图像数据库中的多个图像样本,使用PIL库将该待检索图像和每个图像样本分别转换为多维张量,所有多维张量构成多维张量集合;
(2)将步骤(1)得到的多维张量集合输入预先训练好的检索模型中,以得到待检索图像对应的哈希码,以及每个图像样本对应的哈希码;
(3)针对步骤(2)得到的每个图像样本对应的哈希码而言,计算其与步骤(2)得到的待检索图像对应的哈希码之间的相似度,根据得到的多个相似度计算结果选择与待检索图像匹配的多个图像样本输出。
2.根据权利要求1所述的基于对象规模感知的多标签图像检索方法,其特征在于,检索模型包括依次连接的Swin Transformer网络、哈希映射层和哈希中心生成网络。
3.根据权利要求1或2所述的基于对象规模感知的多标签图像检索方法,其特征在于,
Swin Transformer网络接收输入维度为bs×3×448×448的张量,输出维度为bs×768的矩阵,bs为训练过程中设置的批量数据大小。
哈希映射层由三层全连接层连接而成。第一层的输入为Swin Transformer网络输出的维度为bs×768矩阵,该层使用768×512维权重矩阵,该层的输出为bs×512维矩阵;第二层的输入为第一层输出的bs×512维矩阵,该层使用512×256维权重矩阵,输出为bs×256维矩阵;第三层的输入为第二层输出的bs×256维矩阵,该层使用256×K维权重矩阵,输出为bs×K维矩阵。其中,K表示哈希码长度。
哈希中心生成网络包含3个堆叠而成的全连接层。第一层输入为C×D维标签词向量矩阵,该层使用D×512维权重矩阵,该层输出为C×512维矩阵;第二层输入为第一层输出的C×512维矩阵,使用512×256维权重矩阵,该层输出为C×256维哈希中心点矩阵;第三层输入为第二层输出的C×256维矩阵,使用256×K维权重矩阵,该层输出为C×K维哈希中心点矩阵,其中K表示哈希码位长,且有K∈{16,32,48,64},C表示图像数据库中包含的所有标签类别个数,D表示每个标签词向量的维度。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华中科技大学,未经华中科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310002357.2/1.html,转载请声明来源钻瓜专利网。