[发明专利]基于自监督学习的无标注视频哈希检索方法及装置在审
申请号: | 202210226862.0 | 申请日: | 2022-03-08 |
公开(公告)号: | CN114722902A | 公开(公告)日: | 2022-07-08 |
发明(设计)人: | 宋丹明;郑伟诗;孙伟 | 申请(专利权)人: | 中山大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06F16/73 |
代理公司: | 广州市华学知识产权代理有限公司 44245 | 代理人: | 李斌 |
地址: | 510275 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 监督 学习 标注 视频 检索 方法 装置 | ||
1.基于自监督学习的无标注视频哈希检索方法,其特征在于,包括下述步骤:
获取视频帧数据集并划分为训练数据集及测试集,对训练数据集进行数据增强,得到增强后的数据集;
建立视频哈希检索网络,所述视频哈希检索网络包括特征提取层和哈希层;
将增强后数据集输入视频哈希检索网络,使用特征提取层获取中间特征并计算中间特征的对比损失;
将中间特征输入哈希层得到哈希码特征并计算哈希码特征的对比损失;
对视频哈希检索网络进行训练,使用随机梯度下降法优化损失,更新网络参数直至收敛,获得训练好的视频哈希检索网络;
将测试集输入训练好的视频哈希检索网络中进行视频检索,得到检索结果。
2.根据权利要求1所述的基于自监督学习的无标注视频哈希检索方法,其特征在于,所述数据增强包括随机裁切、随机颜色偏移、随机灰度变化、高斯模糊及随机水平翻转;
设训练数据集表示为X,则对训练数据集进行两次相同的数据增强,获得增强后数据集X1和X2,表示为:
X1,X2=augmentaion(X)
其中,augmentaion()表示数据增强操作。
3.根据权利要求2所述的基于自监督学习的无标注视频哈希检索方法,其特征在于,所述特征提取层采用ResNet网络;所述哈希层包括一个全连接层和激活函数;所述激活函数表示为y=tanh(βx),其中β为参数。
4.根据权利要求3所述的基于自监督学习的无标注视频哈希检索方法,其特征在于,所述获取中间特征具体为:
将增强后的数据集输入视频哈希检索网络,使用特征提取层学习数据集中视频帧的视觉信息,分别计算出X1和X2的中间特征Z1和Z2:
Z1=F(X1),Z2=F(X2)
其中,F表示特征提取层,Z1和Z2为N×C的特征实数矩阵,N为训练数据集中视频帧的数量,C为中间通道数量。
5.根据权利要求4所述的基于自监督学习的无标注视频哈希检索方法,其特征在于,所述计算中间特征的对比损失具体为:
设增强后数据集Z1与Z2中对应训练数据集中同一视频帧的两个视频帧为正样本对,其他的视频帧为负样本对,使用对比损失函数计算中间特征之间的损失:
其中,zi,zj分别表示Z1中第i张视频帧与Z2中第j张视频帧对应训练数据集中同一视频帧的正样本对,zi,zk表示负样本对,τ表示温度超参数,用来调整损失函数的效果,表示zi和zj之间的余弦相似度。
6.根据权利要求5所述的基于自监督学习的无标注视频哈希检索方法,其特征在于,所述得到哈希码特征具体为:
将中间特征Z1和Z2输入哈希层H获得哈希码特征B1和B2:
B1=tanh(βwTZ1)
B2=tanh(βwTZ2)
其中,B1和B2为N×K的哈希特征矩阵,其中每一个元素的值都趋近于-1或1来代表二进制的0和1,K表示哈希码位数。
7.根据权利要求6所述的基于自监督学习的无标注视频哈希检索方法,其特征在于,所述计算哈希码特征的对比损失,具体为:
设哈希码特征B1和B2中对应训练数据集中同一视频帧的哈希码特征为正样本对,其他的视频帧作为负样本对,使用对比损失函数计算哈希码特征之间的损失,公式为:
其中,bi,bj表示B1中第i个哈希码特征与B2中第j个哈希码特征对应于训练集同一视频帧的正样本对,bi,bk表示负样本对。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中山大学,未经中山大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210226862.0/1.html,转载请声明来源钻瓜专利网。