[发明专利]基于注意力机制的视频哈希检索方法有效
申请号: | 201911346339.6 | 申请日: | 2019-12-24 |
公开(公告)号: | CN111104555B | 公开(公告)日: | 2023-07-07 |
发明(设计)人: | 聂秀山;尹义龙;王迎新 | 申请(专利权)人: | 山东建筑大学 |
主分类号: | G06F16/783 | 分类号: | G06F16/783;G06F16/71;G06F16/738;G06N3/045;G06N3/0442;G06N3/0464;G06N3/047;G06N3/048;G06N3/084 |
代理公司: | 山东瑞宸知识产权代理有限公司 37268 | 代理人: | 徐健 |
地址: | 250101 山东省*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 注意力 机制 视频 检索 方法 | ||
本发明提供了一种注意力机制的视频哈希检索方法,包括以下步骤:(1)视频预处理:对视频帧进行采样,并构建视频对;(2)视频帧特征提取:利用卷积神经网络对每一帧进行特征提取;(3)视频特征学习:利用孪生网络、长短期记忆神经网络(LSTM)和注意力机制对视频进行学习;(4)降维和训练:利用全连接层对视频特征进行降维,得到想要的长度的哈希码,并使用梯度下降算法学习网络参数。(5)检索:利用孪生网络的一路网络得到每个视频的哈希码,计算与其他视频的海明距离并进行排序,得到距离最近的视频。与现有技术相比,本发明实现了同时学习视频的空间信息和时间信息,而且通过采样等技术大大降低了计算代价,也提高了视频检索的准确率。
技术领域
本发明涉及一种视频哈希检索方法,属于视频、多媒体信号处理技术领域。
背景技术
随着网络和移动社交媒体的发展,海量的多媒体信息不断地产生,尤其是图片和视频。著名的图片分享网站Flickr,每分钟有3000张图片被上传上传;视频分享网站YouTube,每分钟上传的视频时长高达100小时。因此,如何对海量的多媒体信息进行检索是一个热点话题。从前我们主要通过关键字对图片和视频进行检索,但这往往会检索出我们不想要的结果。基于这个原因,基于内容的检索被提了出来。哈希方法由于其优点,即检索迅速和节省空间,在近年来成为一个热门的研究方向。哈希方法通过将图片或者视频映射成紧凑且离散的二值码(通常是0和1或者-1和1),即哈希码,在海明空间中通过异或运算来计算样本之间的海明距离,通过海明距离来决定检索的结果。由于哈希码是紧凑的,所以存储空间得以大大减小。而海明距离的计算极为迅速,所以检索的速度也得到了保证。
传统的哈希方法主要是针对图片,是基于内容的检索方法。通过对图片进行特征提取,得到每张图片的特征。然后对特征进行哈希映射。最后将连续的值映射成离散的哈希码。哈希方法分为有数据独立的方法和数据依赖的方法。数据独立的方法是指哈希方法不需要数据进行训练,而数据依赖的方法需要数据对哈希方法进行训练。
而视频与图片有很大的不同。在图片哈希中,我们只考虑空间信息。所以只提取图片的空间信息就足以表示图片的特征。而视频每一帧是一张图片,并且同时有很多帧,这些帧就是一个时间序列。每一帧和图像一样,包含空间信息,而帧所组成的时间序列则具有时序信息。由于视频同时具有每一帧的空间特征及帧之间的时序信息,所以在对视频进行处理时,既要考虑空间信息,又要考虑时序信息。空间信息一般使用卷积神经网络来进行提取,时序信息可利用光流图、相邻帧特征融合或者循环神经网络来进行提取。
发明内容
在一个视频中,每一帧的重要性往往是不同的,已有的视频哈希方法往往将所有视频帧同等考虑,而不去考虑不同视频帧对于视频在重要性上的差异。本发明针对现有视频哈希方法的不足,提出了一种基于注意力机制的视频哈希检索方法,通过利用注意力机制,可以区别不同帧的重要性,不同帧被赋予不同的权重,由此得到的视频特征表示更加准确。相邻视频帧往往有着极大地相似性,所以没有必要在对视频进行处理时,使用所有的视频帧,可以采用采样的方法,从视频中对视频帧进行采样,来降低视频帧的数量,从而减小计算复杂度。同时,本发明利用卷积神经网络和循环神经网络,同时获取空间特征和时序特征,大大提高了视频特征的表示能力。除了利用注意力机制来获得良好的视频表示,本发明还通过设计新的损失函数,提高哈希码的质量,进而提高视频检索的准确性。
与现有视频哈希中损失函数相比,该发明包含一个最大间隔损失、位平衡损失和位不相关损失,因此大大提高了哈希码的表示能力。通过设置最大间隔损失,使得不同类视频之间的距离大,相同类之间的距离小;同时,通过设置一个阈值,可以再一定程度上降低过拟合的风险。通过设置位平衡损失,使得生成的哈希码中的-1和+1(或者是0和1)数量尽可能的相近,这可以提高哈希码的表示能力。通过设置位不相关损失,哈希码的每一维度都是高度不相关的,降低了哈希码中的冗余,使得哈希码中的每一位都是有用的,这对哈希码的表示能力提高很大,并且哈希码越短,位不相关损失越重要,应该越小越好。与现有技术相比,本发明的计算复杂性较低,且检索准确率高。
本发明采用的技术方案为:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山东建筑大学,未经山东建筑大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911346339.6/2.html,转载请声明来源钻瓜专利网。