[发明专利]一种基于对比学习的视频中语言片段定位方法及装置在审

申请号：	202110912484.7	申请日：	2021-08-10
公开（公告）号：	CN113792594A	公开（公告）日：	2021-12-14
发明（设计）人：	王利民;王臻郅;武港山	申请（专利权）人：	南京大学
主分类号：	G06K9/00	分类号：	G06K9/00;G06K9/62
代理公司：	南京天翼专利代理有限责任公司 32112	代理人：	奚铭
地址：	210023 江苏***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于对比学习视频语言片段定位方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

一种基于对比学习的视频中语言片段定位方法及装置，建立一个对比与兼容匹配网络来建模句子和视频片段的关系，对比与兼容匹配网络首先对句子和视频提取自然语言特征和视频片段特征，然后将两种特征均分别映射到两组联合建模空间里，两组联合建模空间对应的映射函数参数不相同，在联合建模空间使用余弦相似度计算两种特征的相似度；分别使用对比学习损失函数和二分类交叉熵损失函数来监督训练网络；对待定位的视频片段和自然语言语句，输入训练好的对比与兼容匹配网络，得到两组联合建模空间中的相似度，计算得到定位置信度，由定位置信度确定最终定位结果。本发明完整利用语言和视觉的双向监督信号，从而大幅提升视频中的语言片段时序定位的效果。

技术领域

本发明属于计算机软件技术领域，涉及视频中的语言片段定位技术，具体为一种基于对比学习的视频中语言片段定位时序方法及装置。

背景技术

视频中的语言片段时序定位是计算机视觉领域的一个重要研究任务，其目的是通过一句自然语言查询一个长视频中与这句话匹配的片段。视频中的语言片段定位在现实场景中有广泛的应用前景，例如在一段长电影中通过自然语言查找一段具体的情节，或以自然语言为键值对广告场景中的视频片段进行组织从而形成素材体系。

目前的常用方法是分别提取视频特征与自然语言特征后进行特征融合，然后直接进行时序检测，其类别为简单的二分类。这种情况下，由于与一句自然语言匹配的视频片段正样本只有一个，而与自然语言不匹配的视频片段负样本过多，即除正样本片段外，整个视频其他部分均为负样本，很容易造成时序检测的效果不佳的情况；并且，在融合过后的多模态特征上直接进行时序检测的可解释性较弱，模型只能输出视频中每个位置属于视频片段正样本的置信度曲线，而不能显式地给出语言和视觉两个模态之间特征的相似度。更加重要的是，现有方法的训练过程中使用的监督信号都是利用一句自然语言去匹配视频中的正样本片段，抑制其他负样本片段。这样的监督信号是受限的，即作为一个多模态任务，现有技术方法只有自然语言匹配视频片段的过程，而没有视频片段匹配自然语言的过程。也就是说，只有视频模态的负样本，而没有自然语言描述的负样本，这种单一方向的监督信号，即语言的正样本在视频的正负样本中匹配正确的样本这种单一监督，会导致视频和语言之间匹配的监督信号不够全面，而没有完整的利用所有可用的监督信号，从而导致匹配的准确性较差。本发明就此提出一种新的方法，完整利用两个方向的监督信号，包括语言的正样本在视频片段的正负样本中匹配正确的样本，并且视频片段的正样本在语言的正负样本中匹配正确的样本，从而大幅提升视频中的语言片段时序定位的效果。

发明内容

本发明要解决的技术问题是：现有的视频中语言片段定位方法使用特征融合方式，都只能利用从一句自然语言描述匹配视频片段的单一方向的监督信号，而忽视了另一种同样重要的监督信号，即从视频片段匹配多句自然语言描述的监督信号，导致定位检测效果不佳。

本发明的技术方案为：一种基于对比学习的视频中语言片段定位方法，建立一个对比与兼容匹配网络来建模句子和视频片段的关系，对比与兼容匹配网络首先分别对句子和视频提取自然语言特征和视频片段特征,然后对自然语言特征和视频片段特征通过映射函数均分别映射到两组联合建模空间里，映射函数分别用于将两种模态的特征降维到同一维度从而实现联合建模的目标，两组联合建模空间对应的映射函数参数不相同，在联合建模空间使用余弦相似度计算自然语言特征和视频片段特征的相似度；训练对比与兼容匹配网络时，对两个联合建模空间分别使用对比学习损失函数和二分类交叉熵损失函数来监督训练，通过反向传播算法来更新网络参数，直至网络收敛；对待定位的视频片段和自然语言语句，输入训练好的对比与兼容匹配网络，得到两组联合建模空间中的相似度，将它们分别归一化后相乘得到定位置信度，由定位置信度确定最终定位结果。

进一步的，对比与兼容匹配网络的实现为：

1)自然语言建模网络：使用自然语言特征提取网络DistilBERT的分词器从句子中提取词级别特征，输入DistilBERT得到具有句子全局信息的词级别特征序列，使用全局平均池化和层归一化的方法得到句子的特征向量，即自然语言特征；

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于南京大学，未经南京大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202110912484.7/2.html，转载请声明来源钻瓜专利网。

上一篇：一种柔性区域可控制的照明光源装置
下一篇：一种确定平板式催化剂几何比表面积的方法及装置和应用

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06K 数据识别；数据表示；记录载体；记录载体的处理
G06K9-00 用于阅读或识别印刷或书写字符或者用于识别图形，例如，指纹的方法或装置
G06K9-03 .错误的检测或校正，例如，用重复扫描图形的方法
G06K9-18 .应用具有附加代码标记或含有代码标记的打印字符的，例如，由不同形状的各个笔画组成的，而且每个笔画表示不同的代码值的字符
G06K9-20 .图像捕获
G06K9-36 .图像预处理，即无须判定关于图像的同一性而进行的图像信息处理
G06K9-60 .图像捕获和多种预处理作用的组合

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于对比学习的视频中语言片段定位方法及装置在审

专利文献下载