[发明专利]基于自监督学习的无标注视频哈希检索方法及装置在审
申请号: | 202210226862.0 | 申请日: | 2022-03-08 |
公开(公告)号: | CN114722902A | 公开(公告)日: | 2022-07-08 |
发明(设计)人: | 宋丹明;郑伟诗;孙伟 | 申请(专利权)人: | 中山大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06F16/73 |
代理公司: | 广州市华学知识产权代理有限公司 44245 | 代理人: | 李斌 |
地址: | 510275 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 监督 学习 标注 视频 检索 方法 装置 | ||
本发明公开了一种基于自监督学习的无标注视频哈希检索方法及装置,方法为:获取视频帧数据集并划分为训练数据集及测试集,对训练数据集进行数据增强,得到增强后的数据集;建立视频哈希检索网络;使用特征提取层获取中间特征并计算中间特征的对比损失;将中间特征输入哈希层得到哈希码特征并计算哈希码特征的对比损失;对视频哈希检索网络进行训练,使用随机梯度下降法优化损失,更新网络参数直至收敛,获得训练好的检索网络;将测试集输入训练好的检索网络中进行视频检索,得到检索结果。本方法使用对比损失函数,在没有类别标注信息的情况下对视频哈希检索网络进行训练,并采用随机梯度下降法更新网络参数,得到的检索网络准确率高、结果有效。
技术领域
本发明属于视频检索的技术领域,具体涉及一种基于自监督学习的无标注视频哈希检索方法及装置。
背景技术
近年来,随着通信和互联网技术的飞速发展,视频通话、视频软件和视频内容的不断兴起,视频已经成了人们必不可少的娱乐和社交媒介,并在互联网上积累了大量视频数据。目前的文本和图片检索技术已经相对比较成熟,但视频的检索技术还非常欠缺,尤其是在缺乏数据标注的实际场景下。在互联网的海量视频数据中,对视频进行人工标注是一件极为困难且成本巨大的工作,因此无标注场景下的视频检索技术成为了学术界和工业界都在研究的热点。
视频相似性检索可以理解为用不同视频素材将其进行特征表达,然后在相应的特征空间里进行查找和排序。特征表达有两种方式:一种是通过传统方法提取的视觉特征,比如关键点特征、颜色直方图等;另一个是基于深度学习提取底层基础特征或高层语义特征(深度特征)。传统方法在面对大规模数据时需要提前提取视觉特征再进行检索,不仅检索速度慢、效果差,而且无法使用GPU并行计算;而基于深度学习的检索方法速度快、效果好,可以在GPU上大规模训练,但是现实场景中往往缺乏准确的视频标注,导致检索结果不佳,准确率低。
在现有的视频检索技术中,Song J等人在《Self-Supervised Video HashingWith Hierarchical Binary Auto-Encoder》文献中采用了一种相近自监督哈希检索方法,使用LSTM作为骨干网络,将M帧训练视频帧的特征输入到LSTM网络的编码器中,生成对应的二进制哈希码,然后分别用另外两个LSTM网络从前向和后向两个方向重建帧特征,最后与原始输入视频帧的特征计算重建损失,以此实现对视频的检索。Wu G等人发表的《Unsupervised Deep Video Hashing via Balanced Code for Large-Scale VideoRetrieval》论文中,则使用TSN作为骨干网络,通过两路对输入视频的RGB帧和光流帧分别提取特征,然后对RGB那一路网络的第7个全连接层FC7输出的特征Z进行聚类得到Y,再对Y使用CCA方法降维得到H,再乘一个旋转矩阵R后通过符号函数sign,得到伪哈希码B.然后用伪哈希码B与光流那一路网络的第8个全连接层FC8计算误差来训练网络,最后将光流那一路的网络参数继承给RGB帧那一路,实现了对视频的检索。在文献《NeighborhoodPreserving Hashing for Scalable Video Retrieval》中,Li S等人使用引入注意力机制的LSTM网络作为骨干网络,先对视频帧特征计算出二进制哈希码,再通过LSTM网络重建出视频帧特征,将重建的特征和原始的视频帧特征计算一个视觉内容重建损失,然后计算领域相似度损失和领域信息重建损失,以此实现对视频的检索。但是现有的检索方法提取的特征是连续维度的特征,需要极大的存储量,时间成本高,检索速度慢;而有监督的训练方法往往依赖于大量的标注数据,但人工标注成本高且误差大,易导致检索的准确率低,效果不佳。
发明内容
本发明的主要目的在于克服现有技术的缺点与不足,提供一种基于自监督学习的无标注视频哈希检索方法及装置,方法使用对比损失函数,在没有类别标注信息的情况下对视频哈希检索网络进行训练,并采用随机梯度下降法更新网络参数,得到的检索网络准确率高、结果准确有效。
为了达到上述目的,本发明采用以下技术方案:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中山大学,未经中山大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210226862.0/2.html,转载请声明来源钻瓜专利网。