[发明专利]视频检索方法、装置、电子设备及计算机可读存储介质在审
申请号: | 202111055136.9 | 申请日: | 2021-09-09 |
公开(公告)号: | CN114090823A | 公开(公告)日: | 2022-02-25 |
发明(设计)人: | 范清;唐大闰 | 申请(专利权)人: | 秒针信息技术有限公司 |
主分类号: | G06F16/732 | 分类号: | G06F16/732;G06F16/783;G06N3/04;G06N3/08 |
代理公司: | 成都众恒智合专利代理事务所(普通合伙) 51239 | 代理人: | 王育信 |
地址: | 100020 北京市朝阳区望京*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 视频 检索 方法 装置 电子设备 计算机 可读 存储 介质 | ||
1.一种视频检索方法,其特征在于,包括:
获取检索内容,所述检索内容的类型包括语音或文本;
根据预训练的文本特征编码器,将所述检索内容转换为查询向量;
根据所述查询向量和检索库中各个视频的视觉特征向量,确定与所述检索内容匹配的目标视频;其中,所述视觉特征向量是通过自监督预训练的视觉编码器对所述检索库中的相应视频进行特征提取得到的。
2.根据权利要求1所述的视频检索方法,其特征在于,所述根据预训练的文本特征编码器,将所述检索内容转换为查询向量的步骤,包括:
当所述检索内容的类型为语音时,将所述检索内容转换为文本形式,得到检索文本;
将所述检索文本输入到预训练的文本特征编码器中,得到所述文本特征编码器输出的查询向量。
3.根据权利要求1所述的视频检索方法,其特征在于,所述根据所述查询向量和检索库中各个视频的视觉特征向量,确定与所述检索内容匹配的目标视频的步骤,包括:
分别计算所述查询向量与检索库中每个视频的视觉特征向量的余弦相似性,得到所述检索内容与每个所述视频的相似性值;
根据所述检索内容与每个所述视频的相似性值,确定与所述检索内容匹配的目标视频。
4.根据权利要求1所述的视频检索方法,其特征在于,所述方法还包括:
获取训练样本,所述训练样本包括一个批次的视频数据和至少一条文本数据;
对于每条所述视频数据和每条所述文本数据,将所述视频数据和所述文本数据分别输入视觉编码器网络和文本编码器网络,得到与所述视频数据对应的第一特征向量和与所述文本数据对应的第二特征向量;
根据所述第一特征向量和所述第二特征向量,计算得到模型损失;
根据所述模型损失,更新所述视觉编码器网络的网络参数和所述文本编码器网络的网络参数,以得到预训练的视觉编码器和文本特征编码器。
5.根据权利要求4所述的视频检索方法,其特征在于,所述根据所述第一特征向量和所述第二特征向量,计算得到模型损失的步骤,包括:
将所述第一特征向量和所述第二特征向量分别输入到非线性映射模块和线性映射模块,得到预设维度的第三特征向量和第四特征向量;
将所述第三特征向量和所述第四特征向量输入到跨模态对比损失函数中,计算得到模型损失。
6.根据权利要求4所述的视频检索方法,其特征在于,所述更新所述视觉编码器网络的网络参数和所述文本编码器网络的网络参数的步骤,包括:
使用Adam优化器对所述视觉编码器网络和所述文本编码器网络进行参数优化。
7.根据权利要求4所述的视频检索方法,其特征在于,所述视觉编码器网络包括3DResNet50网络;所述文本编码器网络包括依次连接的分词模块、Word2vec模块、线性层和最大池化层。
8.一种视频检索装置,其特征在于,包括:
获取模块,用于获取检索内容,所述检索内容的类型包括语音或文本;
转换模块,用于根据预训练的文本特征编码器,将所述检索内容转换为查询向量;
确定模块,用于根据所述查询向量和检索库中各个视频的视觉特征向量,确定与所述检索内容匹配的目标视频;其中,所述视觉特征向量是通过自监督预训练的视觉编码器对所述检索库中的相应视频进行特征提取得到的。
9.一种电子设备,包括存储器、处理器,所述存储器中存储有可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1-7中任一项所述的方法。
10.一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,其特征在于,所述计算机程序被处理器运行时执行权利要求1-7中任一项所述的方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于秒针信息技术有限公司,未经秒针信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111055136.9/1.html,转载请声明来源钻瓜专利网。