[发明专利]一种基于多级编码的文本到视频的跨模态检索方法有效
申请号: | 202010060690.5 | 申请日: | 2020-01-19 |
公开(公告)号: | CN111309971B | 公开(公告)日: | 2022-03-25 |
发明(设计)人: | 董建锋;叶金德;章磊敏;林昶廷;王勋 | 申请(专利权)人: | 浙江工商大学 |
主分类号: | G06F16/783 | 分类号: | G06F16/783;G06F16/33 |
代理公司: | 杭州求是专利事务所有限公司 33200 | 代理人: | 刘静 |
地址: | 310018 浙江*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 多级 编码 文本 视频 跨模态 检索 方法 | ||
1.一种基于多级编码的文本到视频的跨模态检索方法,其特征在于,包括:
(1)利用不同的特征提取方法分别对视频和文本的特征进行提取,得到两种模态数据的初始特征;并获得视频的音频特征及文本的BERT特征;
(2)对在步骤(1)中得到的视频初始特征进行多级编码,包括视频的全局、时序和局部三个等级的编码;
(3)将步骤(1)获得的视频的音频特征和步骤(2)获得的视频的三个等级特征进行多级特征融合;将步骤(1)获得的视频的音频特征fv(1)和步骤(2)获得的视频的全局特征fv(2)、时序特征fv(3)、局部特征fv(4)进行多级特征融合,将这四个特征分别拼接任意两个特征,之后将这些特征作为一个多层感知机的输入,以此来量化四个特征之间的关系,最后将多层感知机的输出进行平均池化得到视频端的最终特征表示为:
其中MLPθ表示一个多层感知机,||表示两个不同的特征的拼接,(i<j)表示不考虑两个特征的前后顺序,
(4)以并行的方式,对在步骤(1)中得到的文本初始特征进行多级编码,包括文本的全局、时序和局部三个等级的编码;
(5)将步骤(1)获得的文本的BERT特征和步骤(4)获得的文本的三个等级特征进行多级特征融合;
(6)将步骤(3)和步骤(5)中经过多级特征融合后的视频和文本特征分别映射到公共空间中,利用公共空间学习算法来学习两个模态之间的相关度,最后以端到端的方式训练模型;
(7)利用步骤(6)训练得到的模型实现文本到视频的跨模态检索。
2.根据权利要求1所述的基于多级编码的文本到视频的跨模态检索方法,其特征在于,所述步骤(1)中分别提取视频和文本特征的方法包括如下步骤:
(1-1)利用预训练的深度卷积神经网络对输入的视频帧进行视觉特征提取,获得视频的初始特征;
(1-2)利用预训练的VGGish模型对视频的音频进行特征提取,得到视频的音频特征;
(1-3)利用独热编码对文本中的每个单词进行编码,获得文本的初始特征;
(1-4)利用在大规模无标注语料上预训练的BERT模型,提取包含丰富语义信息的句子特征,即文本的BERT特征。
3.根据权利要求1所述的基于多级编码的文本到视频的跨模态检索方法,其特征在于,所述步骤(2)中对在步骤(1)中获得的视频初始特征进行多级编码的方法包括如下步骤:
(2-1)视频的全局信息编码;通过对视频帧的初始特征做均值操作,获得一个视频的全局编码特征;
(2-2)视频的时序信息编码;利用双向GRU(bi-GRU)对视频初始特征进行编码,获得bi-GRU每个时刻的隐藏状态,通过对这些隐藏状态做均值操作,获得一个包含视频时序信息的特征向量;
(2-3)视频的局部信息增强编码;利用1维卷积神经网络(1-d CNN)对步骤(2-2)中bi-GRU每个时刻输出的隐藏状态进行卷积操作,得到视频局部信息增强的特征。
4.根据权利要求1所述的基于多级编码的文本到视频的跨模态检索方法,其特征在于,所述步骤(4)中对在步骤(1)中获取的文本初始特征进行多级编码的方法包括如下步骤:
(4-1)文本的全局信息编码;对每个单词的特征向量做均值操作,获取文本的一个全局特征;
(4-2)文本的时序信息编码;首先对文本的one-hot向量做词嵌入操作,获得每个单词的词嵌入编码;然后利用双向GRU(bi-GRU)对文本词嵌入特征进行编码,获得bi-GRU每个时刻的隐藏状态,通过对这些隐藏状态做均值操作,获得一个包含文本时序信息的特征向量;
(4-3)文本的局部信息增强编码;利用1维卷积神经网络(1-d CNN)对步骤(4-2)中bi-GRU每个时刻输出的隐藏状态进行卷积操作,得到文本局部信息增强的特征。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江工商大学,未经浙江工商大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010060690.5/1.html,转载请声明来源钻瓜专利网。