[发明专利]一种基于对比学习的视频中语言片段定位方法及装置在审
申请号: | 202110912484.7 | 申请日: | 2021-08-10 |
公开(公告)号: | CN113792594A | 公开(公告)日: | 2021-12-14 |
发明(设计)人: | 王利民;王臻郅;武港山 | 申请(专利权)人: | 南京大学 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/62 |
代理公司: | 南京天翼专利代理有限责任公司 32112 | 代理人: | 奚铭 |
地址: | 210023 江苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 对比 学习 视频 语言 片段 定位 方法 装置 | ||
1.一种基于对比学习的视频中语言片段定位方法,其特征是建立一个对比与兼容匹配网络来建模句子和视频片段的关系,对比与兼容匹配网络首先分别对句子和视频提取自然语言特征和视频片段特征,然后对自然语言特征和视频片段特征通过映射函数均分别映射到两组联合建模空间里,映射函数分别用于将两种模态的特征降维到同一维度从而实现联合建模的目标,两组联合建模空间对应的映射函数参数不相同,因此两个空间的维度可以不同,但同一个空间两个模态的特征的维度须相同,然后在联合建模空间使用余弦相似度计算自然语言特征和视频片段特征的相似度;训练对比与兼容匹配网络时,对两个联合建模空间分别使用对比学习损失函数和二分类交叉熵损失函数来监督训练,通过反向传播算法来更新网络参数,直至网络收敛;对待定位的视频片段和自然语言语句,输入训练好的对比与兼容匹配网络,得到两组联合建模空间中的相似度,将它们分别归一化后相乘得到定位置信度,由定位置信度确定最终定位结果。
2.根据权利要求1所述的一种基于对比学习的视频中语言片段定位方法,其特征是对比与兼容匹配网络的配置为:
1)自然语言建模网络:使用自然语言特征提取网络DistilBERT的分词器从句子中提取词级别特征,输入DistilBERT得到具有句子全局信息的词级别特征序列,使用全局平均池化和层归一化的方法得到句子的特征向量,即自然语言特征;
2)视频片段建模网络:对由视频获取的固定长度的视觉特征序列,使用最大值池化的方法得到一个二维特征图来表示所有的候选定位框的特征,使用多层二维卷积网络对候选定位框的邻域信息建模,得到最终二维特征图,作为每个候选定位框的最终特征,即视频片段特征;
3)联合建模空间:将自然语言特征和视频片段特征均降维映射到两组联合建模空间中,自然语言特征采用单层全连接层为映射函数,视频片段特征使用1x1卷积为映射函数,两组联合建模空间对应的映射函数具有不同参数,在联合建模空间中使用余弦相似度计算句子和候选定位框的相似度,衡量两者的匹配程度;
4)训练阶段:对两组联合建模空间的相似度分别使用对比学习损失函数和二分类交叉熵损失函数进行监督,使用AdamW优化器,通过反向传播算法来更新网络参数,不断重复步骤1)至4)训练对比与兼容匹配网络,直到网络收敛。
3.根据权利要求2所述的一种基于对比学习的视频中语言片段定位方法,其特征是视觉特征序列的提取为:使用特征提取网络C3D提取视频时序特征,通过双线性插值得到固定长度的特征序列。
4.根据权利要求2所述的一种基于对比学习的视频中语言片段定位方法,其特征是视频片段建模网络中,对于固定长度N的视觉特征序列,使用带有ReLU激活函数的全连接层将特征维度降为D维,得到维度为D*N的特征序列,再通过最大值池化的方法构建一个二维特征图来表示所有的候选定位框的特征,即对于二维特征图上的第i,j个元素,使用D*N特征序列上的第i个特征到第j个特征在时序维度上进行最大值池化,得到一个维度为D的特征向量作为二维特征图上的第i,j个元素的特征,基于这份维度为D*N*N二维特征图,使用L层卷积核大小为K的二维卷积进行候选定位框的邻域信息建模,得到一个D*N*N的最终二维特征图,作为每个候选定位框的最终特征。
5.根据权利要求2或4所述的一种基于对比学习的视频中语言片段定位方法,其特征是在联合建模空间里,每个特征向量代表一个自然语言句子或者一个视频时序的候选定位框,其中自然语言特征经映射函数后映射为联合建模空间的一个D维向量;视频片段特征为一个D*N*N的最终二维特征图,N为视觉特征序列长度,具有N*N个D维的向量,除去一半不合法的候选位置,即D*N*N的最终二维特征图中时序上开始比结束更迟的下三角矩阵位置,保留N*N/2个D维的向量,将保留的候选定位框映射到联合建模空间,每一个候选定位框为一个D维向量;使用余弦相似度来衡量任意一对句子-候选框对的匹配程度,先对句子和候选定位框的特征进行欧式空间的特征归一化,再做内积实现余弦相似度的计算。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京大学,未经南京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110912484.7/1.html,转载请声明来源钻瓜专利网。