[发明专利]一种序列化多特征指导的跨媒体哈希检索方法和系统有效
申请号: | 201811228921.8 | 申请日: | 2018-10-22 |
公开(公告)号: | CN109670071B | 公开(公告)日: | 2021-10-08 |
发明(设计)人: | 彭宇新;叶钊达 | 申请(专利权)人: | 北京大学 |
主分类号: | G06F16/583 | 分类号: | G06F16/583;G06F16/31;G06F40/30;G06K9/62 |
代理公司: | 北京君尚知识产权代理有限公司 11200 | 代理人: | 邱晓锋 |
地址: | 100871 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 序列 特征 指导 媒体 检索 方法 系统 | ||
1.一种序列化多特征指导的跨媒体哈希检索方法,包括以下步骤:
(1)建立图像和文本的数据库,分别提取图像和文本在多种尺度下的特征;
(2)将图像、文本的不同尺度特征按设定的顺序分别输入到两路循环神经网络,并计算图像和文本的哈希码;
(3)通过尺度间关联约束函数和媒体间、媒体内哈希约束函数对网络参数进行优化,实现尺度间关联挖掘和哈希函数的学习;
(4)在检索阶段,提取待查询图像或文本的不同尺度特征,并按步骤(2)中相同的方法生成对应的哈希码,通过哈希码实现跨媒体哈希检索;
其中,步骤(2)中采用基于循环神经网络的深度模型,将图像、文本的不同尺度特征按设定的顺序分别输入到两路循环神经网络,计算哈希码;其中同一尺度的特征能够多次输入网络,且每一个尺度的特征都会对应生成一定长度的哈希码,其长度由预先的参数定义,最终的哈希码为上述步骤 得到的哈希码拼接得到;图像和文本第k个输入的尺度特征生成的哈希码长度需要保持一致,以便于实现尺度间关联的挖掘;
步骤(3)中采用的尺度间关联约束函数为:
其中,losscorr表示尺度间关联约束总损失,ht(x),hi(y)分别指图像和文本所有尺度特征生成的完整的文本哈希码和图像哈希码;htk(x),hik(y)指第k个输入的尺度特征生成的文本、图像哈希码;Fcorr表示尺度间关联约束函数,定义为:Fcorr(x,y)=1-cos(x,y),其中x,y分别表示图像和文本生成的哈希码,cos表示余弦距离函数。
2.如权利要求1所述的方法,其特征在于,步骤(1)中的图像特征向量为:VGG-19网络的POOL-5、FC-6、FC-7层特征,分别代表底层基元尺度特征、中层概念尺度特征和高层语义尺度特征;文本特征为:文本词袋特征和使用主成份分析方法对每一句的词袋特征降维拼接的句子词袋特征,分别代表单词尺度特征和句子尺度特征。
3.如权利要求1所述方法,其特征在于,步骤(3)中采用的媒体间、媒体内哈希约束函数定义如下:
Lossinter=∑J(hi(x),ht(x+),ht(x-))+J(ht(x),hi(x+),hi(x-)),
Lossintra=∑J(hi(x),hi(x+),hi(x-))+J(ht(x),ht(x+),ht(x-)),
其中Lossinter表示媒体间哈希约束函数,Lossintra表示媒体内哈希约束函数;ht(x),hi(x)分别指生成的文本哈希码和图像哈希码;x+和x-分别表示和x有着相同标签和不同标签的图像或者文本;J(·)表示三元损失函数:
J(h(x),h(x+),h(x-))=max(0,mt+‖h(x)-h(x+)‖2-‖h(x)-h(x-)‖2),
其中,h(·)表示哈希函数;mt是边界阈值参数;x,x+,x-表示多媒体数据,其中x,x+有着相同语义标签,x,x-有着不同的语义标签。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京大学,未经北京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811228921.8/1.html,转载请声明来源钻瓜专利网。