[发明专利]四胞胎卷积神经网络视频指纹方法有效
申请号: | 202010072025.8 | 申请日: | 2020-01-21 |
公开(公告)号: | CN111291223B | 公开(公告)日: | 2023-01-24 |
发明(设计)人: | 李新伟;郭辰;杨艺 | 申请(专利权)人: | 河南理工大学 |
主分类号: | G06F16/783 | 分类号: | G06F16/783;G06N3/0464;G06N3/08 |
代理公司: | 北京合创致信专利代理有限公司 16127 | 代理人: | 刘素霞 |
地址: | 454000 河南*** | 国省代码: | 河南;41 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 四胞胎 卷积 神经网络 视频 指纹 方法 | ||
本发明提供一种四胞胎卷积神经网络视频指纹方法,该方法包括建立投影激励网络,根据投影激励网络构建四胞胎卷积神经网络视频指纹方法,通过选取视频数据,将构建好的四元组视频序列输入至四胞胎卷积神经网络,进行四胞胎卷积神经网络的训练和性能测试,通过本发明可以端到端实现原始视频数据到离散二值码的映射,简化了方法复杂度,训练时采用四元组损失与量化误差损失共同优化网络参数,一方面四元组损失减小了类内方差并增大了类间方差,另一方面,量化误差损失能够减少实值特征二值化过程中语义相似信息的丢失,本发明在视频拷贝检测方面的查准率与查全率明显提高,得到的视频指纹能在满足紧凑性的同时保持较强的鲁棒性与独特性。
技术领域
本发明涉及多媒体信息安全技术领域,具体涉及一种四胞胎卷积神经网络视频指纹方法。
背景技术
随着国际互联网的普及,计算机正经历一场网络化的革命。与之相关的各种多媒体信息技术如雨后春笋般应运而生,多媒体数据也因此得到快速便捷的使用与传播。在此过程中,海量视频数据在丰富人类生活和增长人类见识的同时,其所包含的一些非法内容在传播过程中会直接损害版权拥有者的个人权益,并严重影响社会健康发展。为了加大对于数字媒体的约束监管力度,近年来,国家出台相关法律法规来有效保护视频版权,监测视频内容。另外,相关视频拷贝检测技术的提出与发展也管理和限制着非法视频的传播。
相较于图像而言,视频数据维度更高,所包含的信息量更为复杂,为了降低数据所占用的计算机内存空间并加速检索,视频指纹技术逐渐发展成为视频拷贝检测领域的重要一环。视频指纹又称视频哈希,它是通过从原始视频数据中提取特征并编码量化成紧凑表示的二值序列,以达到极少量数据表征原始大量数据的目的。
近年来,深度学习作为新兴的机器学习方法,在诸如图像分类、人脸识别等计算机视觉方面已经被证明可以依靠其强大的特征提取能力对原始数据建模,并取得超越传统方法的成效。视频指纹的关键技术是如何提取鲁棒又独特视频特征以及对提取到的实值特征进行有效编码。为此,研究人员不断尝试用各种神经网络,如CNN、LSTM、RNN等,从视频数据中自主学习具备良好泛化能力的深层语义特征,引发了深度学习技术在视频拷贝检测领域一股新的研究热潮。文献Wang L,Bao Y and Li H.Compact CNN Based VideoRepresentation for Efficient Video Copy Detection.International Conference onMultimedia Modeling.Springer International Publishing,pp.576-587,2017.首先从密集采样的视频帧中利用VGGNet网络提取特征,然后通过主成分分析(PrincipleComponent Analysis,PCA)和稀疏编码降低特征维度,检索效果得到进一步提升。文献Yue,N.L.and P.C.Xue.Robust and compact video descriptor learned by deep neuralnetwork.IEEE International Conference on Acoustics,2017.分别训练一个条件生成模型和非线性编码器,最终得到鲁棒视频描述。上述方法以二维卷积网络为基础,只能对静态帧空间特征进行学习,却忽略了连续帧之间的时间关联性,为了实现视频时空特征的联合学习,文献Li J,Zhang H and Wan W.Two-class3d-cnn classifiers combination forvideo copy detection.Multimedia ToolsApplications,2018,vol.5,pp.1-13.提出采用并行的三维卷积神经网络对视频时空信息进行建模,相较于利用二维卷积网络提取特征,三维卷积操作可以对视频时间维度上的运动信息进行捕获,因此整体性能表现较好。由于视频数据量的急速增长,直接利用学习到的高维时空特征表示视频数据会极大消耗计算机内存,为此研究人员提出将深度学习与哈希技术相结合,对神经网络学习到的高维实值特征量化处理得到低维离散指纹码。文献Chao,M.Unsupervised Video Hashing via DeepNeural Network.Neural Processing Letters,2018.vol.47,pp.1-14.分别采用卷积神经网络和长短时记忆网络提取视频空间特征和时间特征,并通过时间序列合并将单帧级别特征融合为视频级别特征,最后以传统哈希方法量化得到二值序列。文献Zhang,H.Play andRewind:Optimizing Binary Representations of Videos by Self-SupervisedTemporal Hashing.in Acm on Multimedia Conference,2016.将深度特征提取与量化编码集成到统一框架下,提出一种二进制LSTM单元用于编码器RNN生成视频的二进制代码,同时解码器RNN以正向和反向顺序重建原始视频帧。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于河南理工大学,未经河南理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010072025.8/2.html,转载请声明来源钻瓜专利网。