[发明专利]一种基于视觉转语义网络的零样本图像哈希检索方法在审
申请号: | 202010823782.4 | 申请日: | 2020-08-17 |
公开(公告)号: | CN112035689A | 公开(公告)日: | 2020-12-04 |
发明(设计)人: | 王祥丰;金博;陈健;祝荣荣;张浩 | 申请(专利权)人: | 苏州智元昇动智能科技有限公司 |
主分类号: | G06F16/51 | 分类号: | G06F16/51;G06F16/55;G06F16/583;G06N3/04;G06N3/08 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 215000 江苏省苏州市昆*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 视觉 语义 网络 样本 图像 检索 方法 | ||
1.一种基于视觉转语义网络的零样本图像哈希检索方法,其特征在于,包括以下步骤:
步骤1、对于输入图片Ii,i代表第i张图片,进行图像信息的整合,降低图像信息的维度,生成图像特征向量xi作为哈希算法的输入;
步骤2、将图像特征向量xi输入到视觉转语义网络进行特征重构,将图像特征向量xi转变为语义特征si;
步骤3、计算语义特征si与类别向量语义特征cyi的距离损失函数,即目标损失函数;类别向量语义特征cyi代表第i张图片标签的类别特征向量,yi即第i张图片的标签;
所需求解的距离损失函数为
其中,m为超参数,代表希望图像特征向量xi转语义特征si后与正确类别语义特征以及最近的错误类别语义特征的容许差值;N代表所有图片的数量;即语义特征si到最近错误类别语义特征的距离;为转化后语义特征si到正确类别语义特征的距离;代表目标损失函数,即希望视觉转语义网络能将映射后的语义特征si更靠近正确的类别语义;
步骤4、将语义特征si映射到所有标签类的维度,进行分类判断;具体是利用全连接网络将语义特征si映射到含有标签数量大小L个神经元的输出层,之后利用输出层每个节点计算各个类别的概率,得到概率向量pi,之后计算交叉熵损失函数,即为如下分类损失函数
其中,yi为第i张图片的类别标签单热向量;代表的是分类损失函数,其本质目的是希望经过语义映射得到的语义特征具有更多的信息,并能依靠低纬度下的丰富信息完成分类任务的重构;
步骤5、将语义特征si映射到汉明空间,生成哈希编码,设立如下哈希损失函数
其中,bi代表哈希向量,其为多位二值的特征向量;sij是0,1二值变量,当图片i与图片j为相同类别图片时,该值为1,不同类别时,该值为0;λ为超参数,代表间隔系数;α为超参数,代表惩罚系数;损失函数中第一项sij*||bi-bj||2代表相同类别哈希编码距离,第二项(1-sij)*max(0,λ-||bi-bj||2)代表不同类别哈希编码距离,第三项α*(|||bi|-e||1+|||bj|-e||1)则是相当于正则项,希望哈希编码函数能利用到更多的位数,其中e代表值全为1的向量;
步骤6、将目标损失函数、分类损失函数、哈希损失函数整合,汇总为总损失函数,并最小化总损失函数,
利用损失函数将梯度进行反向传播,更新包含图像转语义网络以及哈希编码网络在内的神经网络参数,通过训练数据集训练得到图像转语义再转哈希编码的哈希函数方法
步骤7、对所有的数据库待检索图片XP,利用训练得到的哈希函数方法生成哈希编码BP,即为每个数据库中图片生成哈希编码,用以快速检索;
步骤8、对所有训练数据集中未包含类的图片XQ,利用训练得到的哈希函数方法生成哈希编码BQ,并利用该哈希编码与数据库中数据进行比较,将汉明距离较近的相关图片检索排序得到;
步骤9、利用BP以及BQ计算MAP指标以及Precision-R指标衡量在未见类别图片上哈希算法的检索效果,两指标越高意味着找到的图片更精准,属于同一类别图片的概率越大。
2.根据权利要求1所述的基于视觉转语义网络的零样本图像哈希检索方法,其特征在于,步骤1中生成图像特征向量xi的方法为利用基于ImageNet-1K的预训练模型,将输入图片Ii输入到模型中,然后提取中间层的图像特征向量xi。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏州智元昇动智能科技有限公司,未经苏州智元昇动智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010823782.4/1.html,转载请声明来源钻瓜专利网。