[发明专利]视频检索方法、装置、设备及存储介质在审
申请号: | 202210910350.6 | 申请日: | 2022-07-29 |
公开(公告)号: | CN115357756A | 公开(公告)日: | 2022-11-18 |
发明(设计)人: | 路雨 | 申请(专利权)人: | 北京达佳互联信息技术有限公司 |
主分类号: | G06F16/783 | 分类号: | G06F16/783;G06F40/211;G06N3/04;G06N3/08;G06V10/80 |
代理公司: | 北京太合九思知识产权代理有限公司 11610 | 代理人: | 翟玉生 |
地址: | 100085 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 视频 检索 方法 装置 设备 存储 介质 | ||
1.一种视频检索方法,其特征在于,包括:
获取待检索长文本,所述待检索长文本包括至少两个句子,所述至少两个句子之间存在时序关系;
根据每个句子中包含的词语,对每个句子进行向量化处理,得到所述每个句子对应的第一句子向量;
根据所述时序关系,将每个句子对应的第一句子向量与其它句子对应的第一句子向量进行关联处理,得到该句子对应的第二句子向量,所述其它句子包括所述至少两个句子中除该句子之外的全部或部分句子;
根据所述至少两个句子分别对应的第二句子向量分别在视频向量库中进行检索,得到所述至少两个句子各自适配的视频片段;
根据所述至少两个句子各自适配的视频片段,生成所述待检索长文本对应的视频信息。
2.根据权利要求1所述的方法,其特征在于,根据每个句子中包含的词语,对所述至少两个句子分别进行向量化处理,得到所述至少两个句子分别对应的第一句子向量,包括:
获取每个句子包括的多个词语对应的词向量;
将所述多个词语对应的词向量输入至视频检索模型中的句子向量生成网络层中,通过所述句子向量生成网络层对所述多个词语对应的词向量进行合成处理,得到每个句子对应的第一句子向量。
3.根据权利要求1所述的方法,其特征在于,根据所述时序关系,将每个句子对应的第一句子向量与其它句子对应的第一句子向量进行关联处理,得到该句子对应的第二句子向量,包括:
按照所述时序关系,将每个句子对应的第一句子向量输入至视频检索模型中的句子向量关联网络层中,在所述句子向量关联网络层中,对每个句子对应的第一句子向量与其它句子对应的第一句子向量进行关联处理,得到每个句子对应的第二句子向量。
4.根据权利要求1所述的方法,其特征在于,所述视频向量库中包括已有视频片段及其对应的视频向量,根据所述至少两个句子分别对应的第二句子向量分别在视频向量库中进行检索,得到所述至少两个句子各自适配的视频片段,包括:
将所述每个句子对应的第二句子向量输入至视频检索模型中的视频检索网络层中,通过视频检索网络层计算每个第二句子向量与所述视频向量库中的视频向量之间的相似度,将满足设定相似度条件的视频向量对应的已有视频片段,作为与该第二句子向量对应的句子适配的视频片段,从而得到所述至少两个句子各自适配的视频片段。
5.根据权利要求4所述的方法,其特征在于,所述方法还包括:
预先选取已有视频片段;
针对任一个已有视频片段,获取该已有视频片段中的多个图像帧,将所述多个图像帧输入至视频检索模型中的视频向量生成网络层中,对所述多个图像帧进行特征提取,得到多个图像帧分别对应的特征向量,对所述多个图像帧分别对应的特征向量进行融合,得到该已有视频片段对应的视频向量。
6.根据权利要求2-5任一项所述的方法,其特征在于,还包括:
获取句子样本及其对应的视频片段样本;
针对每个句子样本,生成该句子样本的句子向量,并生成该句子样本对应的视频片段样本的视频向量,作为一组训练样本;
将训练样本中的句子向量作为视频检索模型的输入,将训练样本中的视频向量作为预期的模型输出进行多次模型训练,并计算每次训练的损失函数,根据每次训练的损失函数,调整模型参数,直至损失函数符合设定要求时,得到视频检索模型;其中,所述损失函数为实际模型输出与预期的模型输出之间的差异信息。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京达佳互联信息技术有限公司,未经北京达佳互联信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210910350.6/1.html,转载请声明来源钻瓜专利网。
- 上一篇:干法工艺聚合物膜及应用
- 下一篇:一种充电装置、充电管理系统及其充电方法