[发明专利]多粒度级联交互网络的跨模态时序行为定位方法及装置有效
申请号: | 202210052687.8 | 申请日: | 2022-01-18 |
公开(公告)号: | CN114064967B | 公开(公告)日: | 2022-05-06 |
发明(设计)人: | 王聪;鲍虎军;宋明黎 | 申请(专利权)人: | 之江实验室 |
主分类号: | G06F16/735 | 分类号: | G06F16/735;G06F16/78;G06F16/783;G06N3/04;G06N3/08;H04N19/149;H04N19/21 |
代理公司: | 杭州浙科专利事务所(普通合伙) 33213 | 代理人: | 孙孟辉;杨小凡 |
地址: | 310023 浙江省杭*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 粒度 级联 交互 网络 跨模态 时序 行为 定位 方法 装置 | ||
本发明公开了多粒度级联交互网络的跨模态时序行为定位方法及装置,用于解决未修剪视频中基于给定文本查询的时序行为定位问题。本发明实施一种新的多粒度级联跨模态交互网络,以由粗到细的方式进行级联跨模态交互,用以提升模型的跨模态对齐能力。此外,本发明引入了一种局部‑全局上下文感知的视频编码器(local‑global context‑aware video encoder),用于提升视频编码器的上下文时序依赖建模能力。本发明实现方法简单,手段灵活,在提升视觉‑语言跨模态对齐精度方面具有优势,且训练所得模型在成对的视频‑查询测试数据上可显著提升时序定位准确度。
技术领域
本发明涉及视觉-语言跨模态学习领域,尤其是涉及跨模态时序行为定位方法及装置。
背景技术
随着多媒体和网络技术的迅猛发展,以及交通、校园和商场等场所大规模视频监控的日益普及,海量的视频数据呈现快速的几何式增长,视频理解已成为一个重要且亟待解决的问题。其中,时序行为定位是视频理解的基础和重要组成部分。基于视觉单模态的时序行为定位研究将待定位的行为限定在预定义的行为集合中,然而,在真实世界中行为复杂多样,预定义的行为集合难以满足真实世界的需要。如图1所示,视觉-语言跨模态时序行为定位任务给定视频中某段行为的文本描述作为查询,在视频中对相应行为片段进行时序定位。视觉-语言跨模态时序行为定位是一种非常自然的人机交互方式,该项技术在网络短视频内容检索与生产、智能视频监控以及人机交互等领域具有广阔的应用前景。
在深度学习的推动下,视觉-语言跨模态时序行为定位任务引起了工业界和学术界的广泛关注。由于异构的文本模态与视觉模态之间存在显著的语义鸿沟,在从文本模态到视觉模态的跨模态时序行为定位任务中,如何实现模态间的语义对齐是一个核心问题。现有的视觉-语言跨模态时序行为定位方法主要有三类,包括基于候选片段提名的方法、免候选片段提名的方法以及基于序列决策的方法。视觉-语言跨模态对齐在现有的三类方法中均为不可或缺的重要环节。然而,现有方法在视觉-语言跨模态交互环节没有充分利用多粒度的文本查询信息,且在视频表征编码环节没有充分建模视频的局部上下文时序依赖特性。
发明内容
为解决现有技术的不足,在视觉-语言跨模态时序行为定位任务中,实现提升视觉-语言跨模态对齐精度的目的,本发明采用如下的技术方案:
多粒度级联交互网络的跨模态时序行为定位方法,包括以下步骤:
步骤S1:给定未修剪的视频样本,利用视觉预训练模型进行视频表征的初步提取,并采用局部-全局的方式,对初步提取后的视频表征进行上下文感知的时序依赖编码,得到最终的视频表征,从而提升视频表征的上下文时序依赖建模能力;
步骤S2:对于未修剪视频相应的文本查询,采用预训练的词嵌入模型,对查询文本中各个单词进行词嵌入初始化,然后采用多层双向长短时记忆网络,进行上下文编码,得到文本查询的单词级表征和全局级表征;
步骤S3:对于已提取的视频表征和文本查询表征,采用多粒度级联交互网络进行视频模态和文本查询模态间的交互,得到查询引导的增强化视频表征,从而提升跨模态对齐精度;
步骤S4:对于经过多粒度级联交互后得到的视频表征,采用基于注意力的时序位置回归模块,预测文本查询相应的目标视频片段时序位置;
步骤S5:对于步骤S1~S4所组成的基于多粒度级联交互网络的跨模态时序行为定位模型,利用训练样本集进行该模型的训练,训练时所采用的总损失函数包括注意力对齐损失和边界损失,其中,边界损失包括平滑损失和时序广义交并比损失,从而更好地适应于时序定位任务的评测准则,训练样本集由若干{视频,查询,目标视频片段时序位置标注}三元组样本构成。
进一步地,所述步骤S1中,基于视觉预训练模型,以离线方式提取视频帧特征并均匀地采样T帧,然后经过一个线性变换层,获取一组视频表征,为视频第i帧的表征,进而对视频表征采用局部-全局的方式,进行上下文感知的时序依赖编码。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于之江实验室,未经之江实验室许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210052687.8/2.html,转载请声明来源钻瓜专利网。