[发明专利]一种基于深度学习的视频检索方法有效

申请号：	201910814850.8	申请日：	2019-08-27
公开（公告）号：	CN110717068B	公开（公告）日：	2023-04-18
发明（设计）人：	印鉴;陈智聪	申请（专利权）人：	中山大学
主分类号：	G06F16/73	分类号：	G06F16/73;G06F16/75
代理公司：	广州粤高专利商标代理有限公司 44102	代理人：	林丽明
地址：	510275 广东***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于深度学习视频检索方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明提供一种基于深度学习的视频检索方法，该方法能通过G网络中的视频输入层以及RseNet的深度学习模型学习到视频的上下文特征，能够提取出可以表达视频类型的特征数，并且经过Hash层转换优化存储空间，使得视频特征存储所占空间极大降低。通过在相应数据集上的实验表明，本发明对比之前的视频检索方法，有较大提升，并且同样数据集占用的存储空间也有较大降低。

技术领域

本发明涉及计算机视觉领域，更具体地，涉及一种基于深度学习的视频检索方法。

背景技术

近年来，随着互联网的快速发展，网络已经成为人们娱乐和获取信息的主要途径，在这个过程中，互联网上积累了大量的视频数据，目前相当成熟的文字检索技术可以帮助人们获取信息，但是对于利用视频去进行检索却还有所欠缺。视频检索技术可以帮助人们查找某个视频相关的其他视频，因此视频检索技术无论是对学术界或者是工业界都表现除了极大的吸引力。

目前的检索技术常见的如文字搜索文字、图片、视频，以及图片搜索图片，但是对于以视频搜索视频的技术还并不完善。本专利基于深度学习的方法，对视频特征进行提取，然后提供给检索用。深度学习的模型在图片领域上的应用比较成熟，但是对于视频领域，由于各种原因，比如视频数据集太大、数据集质量欠缺、模型不足以提取视频特征等因素，导致视频特征提取还不是非常成熟。目前常见的视频特征提取网络有3DConvolution、Two-StreamNetwork、CNN+RNN等。

对于上述一些问题，通过调研后采取了3DConvolution网络，具体是3DResNet，该模型有许多种深度，例如常见的18层、34层、50层、101层、152层等。一般来说，深度越深，越能提取视频的细节特征。但是深度越深也会带来越高的计算开销，对硬件的要求会越高。综合了个因素后，采取了18层的ResNet进行视频的特征提取。经过测试，得出了18层ResNet已经可以达到一个不错的效果了。让深度学习进行学习从而达到对视频特征提取更加敏感，这样最后的分类器的分类也就更加准确。分类更加准确，之后在进行检索的视频相关度就会更高。

发明内容

本发明提供一种基于深度学习的视频检索方法，该方法可实现降低同样数据集占用的存储空间。

为了达到上述技术效果，本发明的技术方案如下：

一种基于深度学习的视频检索方法，包括以下步骤：

S1：建立用于视频特征提取的深度学习网络模型G；

S2：对步骤S1中得到的模型进行训练与测试；

S3：利用S3中得到的弄醒建立用于提供后台接口的进程，提供检索入口以及返回检索结果。

进一步地，所述步骤S1的具体过程是：

S11：建立G网络的第一层视频向量层，将预处理后的每个视频中的每一帧照片表示成一个低纬、稠密的实数向量，在大规模标注照片上预训练好的图片模型Resnet，将整个视频表示成视频向量矩阵X＝[x1,…,xt,…,xn]，其中n是视频帧数，向量矩阵X的维度是照片预处理大小112*112；

S12：建立G网络的第二层ResNet层，在这一层中让模型学习到整个视频的上下文信息，对于向量X，每一帧图片是向量中的一个元素，第t个帧元素表示为xt，通过ResNet模型后提取到一组设定好的nbit长度的特征向量；

S13：建立G网络的第三层特征向量Hash层，将ResNet输出的特征向量进行Hash转化成0、1值的向量，以此减少存储空间。

进一步地，所述步骤S2的具体过程是：