[发明专利]一种基于擦除机制的弱监督视频片段检索方法和系统有效
申请号: | 202110272729.4 | 申请日: | 2021-03-12 |
公开(公告)号: | CN112685597B | 公开(公告)日: | 2021-07-13 |
发明(设计)人: | 李昊沅;周楚程 | 申请(专利权)人: | 杭州一知智能科技有限公司 |
主分类号: | G06F16/732 | 分类号: | G06F16/732;G06F16/75;G06F16/783;G06N3/04;G06N3/08 |
代理公司: | 杭州求是专利事务所有限公司 33200 | 代理人: | 郑海峰 |
地址: | 311200 浙江省杭州市*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 擦除 机制 监督 视频 片段 检索 方法 系统 | ||
本发明公开了一种基于擦除机制的弱监督视频片段检索方法和系统,属于视频片段检索领域。本发明针对视频‑查询语句,分别获取语言特征和帧特征;构建语言感知的双分支视觉过滤器,产生增强视频流和抑制视频流;构建基于动态擦除机制的双分支共享候选网络,产生积极候选片段和消极候选片段;在候选网络的增强分支中引入动态擦除机制,并计算增强分数和抑制分数;采用多任务损失对语言感知的双分支视觉过滤器和基于动态擦除机制的双分支共享候选网络进行训练,得到训练好的模型;针对待处理的查询语句和视频,利用训练好的模型,将增强分支输出的最高候选分数对应的片段作为最终检索结果。本发明增强了视频句子的匹配能力,提高了视频检索的性能。
技术领域
本发明涉及视频片段检索领域,尤其涉及一种基于擦除机制的弱监督视频片段检索方法和系统。
背景技术
视频片段检索是集计算机视觉和自然语言处理于一体的信息检索系统中的一个新课题。给定一个未修剪的视频和一个自然语言描述,视频片段检索的目的是定位与语义匹配目标片段的时间边界。然而,大多数现有的方法都是在完全监督的环境中训练的。这种手工注释非常昂贵和耗时,特别是对于模棱两可的描述。
现有的弱监督方法通常运用基于MIL或者基于重构的方法来训练弱监督定位网络。但是这两种方法都有一些缺陷。前者通过定义一些初始的视觉语言对作为正样本,构造不匹配的语言视觉对对作为负样本,通过样本间损失训练潜在的视觉文本匹配。但是这种方法对随机选择的负样本的质量要求很高,低质量的的样本容易被识别,无法提供强烈的监督信号。另一方面,基于重构的方法尝试在训练中从视觉内容中重构查询语句,并利用中间结果如注意力权重在推理的过程中定位候选目标。但是这些方法并不能直接优化被用来推理的视觉文本匹配分数。因为有较高注意力权重的候选并不一定与查询句子有更高的关联,这种间接优化会限制模型的性能,因此,现有的弱监督方法至少存在以下问题:
1)必须有高质量的的负样本,低质量的的样本容易被识别,无法提供强烈的监督信号;
2)无法直接优化被用来推理的视觉文本匹配分数,高注意力权重的候选并不一定与问题语句有高关联度,这种间接优化会限制模型的性能。
擦除是抑制过拟合和增强模型鲁棒性的有效数据增强方法,传统的擦除方法通常用于图像中,随机选择图像中的区域,用图像的0或平均值替换它们的像素,产生大量的新图像进行训练,但是对视频图像进行擦除对提高视频-句子的匹配能力有限。本方法提出了一种新的具有擦除机制的正则化双分支候选网络,通过发现可信的负候选时刻构建细粒度的样本内对抗,并通过注意引导的动态擦除来捕捉更完整的视觉-文本关系。
发明内容
为了克服现有技术中由于往往仅关注样本间对抗,而忽略了样本内对抗,易导致难以从似是而非的候选片段中选择出正确的结果;以及现有技术中关注的视频-句子对集中在几个占主导地位的词上,忽略了全局,易导致无法定位未出现在训练数据中的且未经训练的样本,只能在训练数据集中取得较高的准确率,实际应用性较差。本发明提供了一种基于擦除机制的弱监督视频片段检索方法和系统,可以高效准确地进行视频片段检索。
本发明通过构建双分支候选模块,两个分支采用相同的结构,且分支之间参数共享,使模型更加轻巧和鲁棒;通过构建动态擦除机制,擦除查询句子中的占比较高的单词,增强了视频句子的匹配能力,提高了视频检索的性能。
为了实现上述目的,本发明采用的具体技术方案是:
本发明的其中一个目的在于提供一种基于擦除机制的弱监督视频片段检索方法,包括以下步骤:
1)针对视频-查询语句,获取查询语句的语言特征和视频的帧特征;
2)构建语言感知的双分支视觉过滤器,利用帧特征和语言特征得到视频中每一帧的增强模态特征和抑制模态特征,构成增强视频流和抑制视频流;
3)构建基于动态擦除机制的双分支共享候选网络,包括增强分支和抑制分支;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州一知智能科技有限公司,未经杭州一知智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110272729.4/2.html,转载请声明来源钻瓜专利网。