[发明专利]基于语义对齐的离散监督跨模态哈希检索方法有效
申请号: | 201711004530.3 | 申请日: | 2017-10-25 |
公开(公告)号: | CN107729513B | 公开(公告)日: | 2020-12-01 |
发明(设计)人: | 姚涛;孔祥维;付海燕 | 申请(专利权)人: | 鲁东大学 |
主分类号: | G06F16/332 | 分类号: | G06F16/332;G06F16/31;G06F16/338;G06F16/583 |
代理公司: | 烟台双联专利事务所(普通合伙) 37225 | 代理人: | 梁翠荣 |
地址: | 264000 山东*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 语义 对齐 离散 监督 跨模态哈希 检索 方法 | ||
1.基于语义对齐的离散监督跨模态哈希检索方法,其特征在于:其由两部分组成:离线训练过程和在线检索过程;所述的离线训练过程包括提取训练集中文本模态样本BOW特征、提取训练集中图像模态样本的语义属性以及哈希函数的学习;所述的在线检索过程,首先利用BOW算法或CNN提取测试集中文本模态样本的特征或图像模态样本的语义属性表示,然后通过哈希函数将测试集中文本模态样本或图像模态样本映射到二值空间,最后计算测试集中文本模态样本或图像样本的哈希码与被检索异构样本哈希码的汉明距离,并根据距离从小到大排序返回排序靠前的样本;所述的离线训练过程,首先提取训练集中文本模态样本和图像模态样本的表示,然后将基于矩阵分解的协同滤波引入学习哈希码,并为文本和图像模态学习哈希函数;具体实现包括以下子步骤:
步骤1.1:训练集中样本包括文本模态样本和图像模态样本,提取训练集中样本的表示,其包含以下子步骤:
步骤1.1.1:利用词包模型提取训练集中文本模态样本的BOW特征;
步骤1.1.2:将训练集中图像模态样本送入在ImageNet上训练好的CNN网络,并将CNN网络Fc8层的输出作为语义属性表示训练图像样本;
步骤1.2:引入基于矩阵分解的协同滤波方法,直接利用样本的标签学习哈希码;具体而言,利用基于矩阵分解的协同滤波算法学习两个低维矩阵,来估计标签矩阵,其中一个矩阵为潜在语义矩阵,用表示,表示训练样本总的类别数目,表示哈希码的长度;另外一个矩阵为样本的哈希码,用表示,表示训练样本的数量;算法期望如果第个训练样本属于第类,的值应该小;反之,如果第个训练样本不属于第类,的值应该大;因此,第个训练样本和第个潜在语义概念间的关联可以用来预测标签矩阵,关系预测损失的定义如下:
其中,表示Frobenius范数,为所有样本的标签矩阵,表示第个样本的标签,,表示第个样本不属于第类,表示第个样本属于第类,用矩阵形式表示,可写为:
其中,为正则项,为权重参数;
步骤1.3:在得到训练文本和图像样本特征表示的基础上,利用线性映射作为哈希函数,其定义如下:
其中、分别表示训练集中文本和图像模态样本的特征描述,,,表示文本模态特征的维数,、分别表示文本和图像模态的哈希函数,表示符号函数,当输入为正值时输出为1,输入为负值时输出为-1;哈希函数学习的损失如下:
其中,、和为权重参数;
步骤1.4:因此DSAH算法目标函数定义为:
步骤1.5:求解步骤1.4中目标函数,得到图像和文本模态的哈希函数;提出一种迭代优化算法得到一组局部最优解,其包含以下子步骤:
步骤1.5.1:固定,和,求解:当,和固定时,这个问题变为简单的线性回归问题,这个问题存在闭合解,可以通过对求偏导为0得到:
步骤1.5.2:固定,和,求解:当,和固定时,与求解类似,这个问题也存在闭合解,可以通过对变量求偏导为0得到:
与求解类似,可以通过下式得到:
步骤1.5.3:固定,和,求解:当,和固定时,步骤1.4中目标函数可以写为:
本发明提出一种离散优化方法,可以直接得到问题的离散解;展开上式并舍弃与无关的项,上式可写为:
其中,表示矩阵的迹;本发明提出固定哈希码的其他位每次只求解一位的方法,直接得到哈希码的离散解;令表示哈希码的第位,表示除了第位由其他位组成的矩阵;类似的,表示的第列,表示除了第位由其他位组成的矩阵;表示的第列,表示除了第位由其他位组成的矩阵;去除常数项,目标函数变为:
当和的符号不同时,上式取值最小,因此:
步骤1.5.4:判断是否是最大迭代次数或最近两次迭代的损失差小于0.1,如果不是则跳转到步骤1.5.1继续迭代;如果是,则停止迭代,得到两个模态的哈希函数。
2.根据权利要求1所述的基于语义对齐的离散监督跨模态哈希检索方法,其特征在于:所述的在线检索过程,利用测试集中包含的文本和图像模态样本测试算法的检索性能,具体实现包含以下子步骤:
步骤2.1:利用词包模型提取测试集中文本模态样本的BOW特征,把测试集中图像模态样本送入在ImageNet上训练好的CNN网络,并把Fc8层输出的1000类分类得分作为语义属性表示图像模态的样本;
步骤2.2:分别利用离线训练过程中为文本和图像模态学习的哈希函数,得到测试集中文本和图像模态样本的哈希码;
步骤2.3:把测试集中文本或图像模态样本作为查询样本,分别计算查询样本哈希码与测试集中图像或文本模态样本哈希码的汉明距离,并根据距离从小到大排序返回排序靠前的样本。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于鲁东大学,未经鲁东大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711004530.3/1.html,转载请声明来源钻瓜专利网。