[发明专利]一种基于元学习的无监督跨模态哈希检索方法在审
申请号: | 202010478822.6 | 申请日: | 2020-05-29 |
公开(公告)号: | CN111753190A | 公开(公告)日: | 2020-10-09 |
发明(设计)人: | 庄瑜;赖韩江 | 申请(专利权)人: | 中山大学 |
主分类号: | G06F16/9535 | 分类号: | G06F16/9535;G06F16/9538;G06F16/435;G06F16/438;G06F16/45;G06F16/31;G06F16/338;G06F16/35;G06F16/538;G06F16/55;G06N3/04;G06N3/08 |
代理公司: | 广州粤高专利商标代理有限公司 44102 | 代理人: | 刘俊 |
地址: | 510275 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 学习 监督 跨模态哈希 检索 方法 | ||
1.一种基于元学习的无监督跨模态哈希检索方法,其特征在于,包括以下步骤:
S1:使用预训练好的ResNet模型和Bert模型提取辅助图像集、辅助文本集和目标跨模态数据集的高维实数特征;
S2:在特征提取模型后加上哈希检索表征转换层,即哈希模型;
S3:对辅助图像集和文本集进行聚类;
S4:利用元学习训练方法MAML,在辅助数据集的帮助下对目标跨模态数据集进行训练,更新哈希模型;
S5:计算检索结果。
2.根据权利要求1所述的基于元学习的无监督跨模态哈希检索方法,其特征在于,所述步骤S1的具体过程是:
S11:利用预训练好的ResNet模型提取辅助图像集的特征向量;
S12:利用预训练好的Bert模型提取辅助文本集的特征向量。
3.根据权利要求3所述的基于元学习的无监督跨模态哈希检索方法,其特征在于,所述步骤S2的具体过程是:
S21:构建两个全连接层,分别将图像和文本从高维的特征向量映射成低维的实数向量,并且经过一个激活函数tanh,将向量上的实数元素的值映射到[-1,1]范围内,即图像哈希模型和文本哈希模型;
S22:在高维特征向量经过全连接层和激活函数后,通过将小于等于0的元素表示为0,将大于0的元素表示为1,把实数向量v转换为二进制码b,即哈希码,量化公式如下:
4.根据权利要求3所述的基于元学习的无监督跨模态哈希检索方法,其特征在于,所述步骤S3的具体过程是:
S31:随机选取K个聚类质心点{μ1,μ2,…,μk};
S32:对于每一个特征向量x(i),计算其与各聚类中心的距离dist(x(i),μj),把该特征向量划入距离最近的一个类x(i)∈μnearest;
S33:根据当前的划分情况,对于每个类重新计算聚类中心,假设对于类Ci,其聚类中心为|Ci|表示类Ci里面的样本数量;
S34:重复步骤S32,S33,直到聚类中心的变化程度小于阈值或者达到最大运行次数,则停止运行;重复执行S31~S34步骤10次,选取一个最佳的聚类结果,并将辅助数据集中的特征向量及其对应的聚类结果标签保存下来。
5.根据权利要求4所述的基于元学习的无监督跨模态哈希检索方法,其特征在于,所述步骤S4的具体过程是:
S41:根据聚类过后的辅助单模态数据集,构建三元组I,Ipos,Ineg,T,Tpos,Tneg;
S42:将构建的单模态三元组输入到哈希网络中,计算三元组损失函数;
S43:通过三元组损失,计算网络参数的梯度,根据梯度值,计算网络权重,但是不更新网络参数;
S44:根据成对的目标跨模态数据集,构建三元组Ti,Ii,Ij,Ii,Ti,Tj,输入哈希网络,在S43步骤计算出来的网络参数的基础上,计算三元组损失函数,并更新网络参数。
6.根据权利要求5所述的基于元学习的无监督跨模态哈希检索方法,其特征在于,所述步骤S5中,计算检索准确性的过程如下:
S51:计算查询图像哈希码与所有文本哈希码之间汉明距离,汉明距离的计算方法是将对应位上的哈希码字做异或操作,并求和,即求不同取值的码元个数;
S52:按汉明距离从小到大排序,根据标签依次判断该图像是否与文本属于同类,同类即检索正确。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中山大学,未经中山大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010478822.6/1.html,转载请声明来源钻瓜专利网。