[发明专利]一种基于深度对抗离散哈希学习的跨模态检索方法及装置在审
申请号: | 202010225616.4 | 申请日: | 2020-03-26 |
公开(公告)号: | CN111597298A | 公开(公告)日: | 2020-08-28 |
发明(设计)人: | 白琮;曾超;马青;张敬林;陈胜勇 | 申请(专利权)人: | 浙江工业大学 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/35;G06F16/53;G06F16/55;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 杭州君度专利代理事务所(特殊普通合伙) 33240 | 代理人: | 杨天娇 |
地址: | 310014 浙江省*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 深度 对抗 离散 学习 跨模态 检索 方法 装置 | ||
1.一种基于深度对抗离散哈希学习的跨模态检索方法,其特征在于,所述基于深度对抗离散哈希学习的跨模态检索方法,包括:
构建用于哈希学习的神经网络模型,所述神经网络模型包括图像网络和文本网络,所述图像网络和文本网络分别包括依次连接的特征函数层、哈希函数层和符号函数层,其中,所述特征函数层包括多个全连接层和各个全连接层后的ReLU激活函数,所述哈希函数层包括一个全连接层和tanh激活函数,所述符号函数层对哈希函数层的输出做符号函数运算来得到哈希码;
采用加权余弦三元组损失函数、对抗损失函数、分类损失函数、量化损失函数构建所述神经网络模型的整体目标函数;
获取训练数据,对所述神经网络模型进行训练,直到整体目标函数收敛;
获取待检索的图像或文本,采用训练好的所述神经网络模型进行学习,获取对应的哈希码。
2.根据权利要求1所述的基于深度对抗离散哈希学习的跨模态检索方法,其特征在于,所述图像网络的特征函数层包括两层全连接层,每个全连接层后加ReLU激活函数;所述文本网络的特征函数层包括三层全连接层,每个全连接层后加ReLU激活函数。
3.根据权利要求1所述的基于深度对抗离散哈希学习的跨模态检索方法,其特征在于,所述加权余弦三元组损失函数为:
其中m为边界常数,ω(rj,rk)是权重因子,rj代表第j个查询结果与查询之间的相似度,rk代表第k个查询结果与查询之间的相似度,cos(.)是余弦函数,代表了图像网络哈希函数层的第i个输出,代表与查询图像不相关的文本网络哈希函数层第k个输出,代表与查询图像相关的文本网络哈希函数层第j个输出,代表了文本网络哈希函数层的第i个输出,代表与查询文本不相关的图像网络哈希函数层第k个输出,代表与查询文本相关的图像网络哈希函数层第j个输出,代表了当查询目标是图像时的加权余弦三元组损失函数,代表了当查询目标是文本时的加权余弦三元组损失函数。
4.根据权利要求1所述的基于深度对抗离散哈希学习的跨模态检索方法,其特征在于,所述对抗损失函数为:
其中n代表了训练样本的总数,DF代表了特征函数输出的判别器,DH代表了哈希函数输出的判别器,表示特征函数层对应的对抗损失函数,表示哈希函数层对应的对抗损失函数,fI代表图像网络特征函数层的输出,fT代表文本网络特征函数层的输出,vI为图像网络哈希函数层的输出,vT表示文本网络哈希函数层的输出。
5.根据权利要求1所述的基于深度对抗离散哈希学习的跨模态检索方法,其特征在于,所述采用加权余弦三元组损失函数、对抗损失函数、分类损失函数、量化损失函数构建所述神经网络模型的整体目标函数,构建的整体目标函数如下:
其中,α、β、γ为超参数,代表了当查询目标是图像时的加权余弦三元组损失函数,代表了当查询目标是文本时的加权余弦三元组损失函数;为分类损失函数,为量化损失函数,表示特征函数层对应的对抗损失函数,表示哈希函数层对应的对抗损失函数。
6.一种基于深度对抗离散哈希学习的跨模态检索装置,包括处理器以及存储有若干计算机指令的存储器,其特征在于,所述计算机指令被处理器执行时实现权利要求1至权利要求5中任意一项所述方法的步骤。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江工业大学,未经浙江工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010225616.4/1.html,转载请声明来源钻瓜专利网。