[发明专利]视频文本跨模态检索方法、装置、存储介质和设备在审
申请号: | 202111095182.1 | 申请日: | 2021-09-17 |
公开(公告)号: | CN113806482A | 公开(公告)日: | 2021-12-17 |
发明(设计)人: | 陈婧;冯泽润;王海莺;高旭巍;郭彩丽;李忠;张宇峰;李金岭;杜忠田;王彦君;姜祖运 | 申请(专利权)人: | 中国电信集团系统集成有限责任公司 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/35;G06F16/75;G06F16/783;G06F40/289;G06F40/30;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 北京知汇林知识产权代理事务所(普通合伙) 11794 | 代理人: | 董涛 |
地址: | 100036 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 视频 文本 跨模态 检索 方法 装置 存储 介质 设备 | ||
1.一种视频文本跨模态检索方法,其特征在于,所述方法包括:
获取训练样本集,所述训练样本集包括成对标注的视频和文本;
对所述视频进行分帧处理,并提取帧特征;
对所述文本进行分词处理并提取词特征,所述词特征包括至少两类词性特征;
利用所述帧特征和至少两种词性特征对预训练的跨模态检索模型进行训练,获得训练好的跨模态检索模型;
将待测视频和文本输入所述训练好的跨模态检索模型中进行视频和文本的跨模态检索。
2.根据权利要求1所述的视频文本跨模态检索方法,其特征在于,对所述视频进行分帧处理并提取帧特征包括:
利用分帧工具依次对每一段视频进行分帧处理,获得帧序列,将所述帧序列均匀划分为时长相等的预设段,提取每段的第一帧,获得预设帧;
运用卷积神经网络ResNet提取所述预设帧的帧特征。
3.根据权利要求1所述的视频文本跨模态检索方法,其特征在于,对所述文本进行分词处理并提取词特征,所述词特征包括至少两种词性特征包括:
利用分词工具依次对每一条文本进行分词;
利用Simple-bert语义角色标注工具对每个词的词性进行分类;
利用全局词频统计词表征工具和门控循环单元词特征提取工具提取词特征,所述词特征包括至少两类种词性特征。
4.根据权利要求1所述的视频文本跨模态检索方法,其特征在于,所述词性特征包括第一词性特征和第二词性特征,所述利用所述帧特征和至少两种词性特征对预训练的跨模态检索模型进行训练,获得训练好的跨模态检索模型包括:
将所述帧特征与所述第一词性特征进行空间维度特征匹配,获得空间维度特征匹配结果;
计算所有帧特征之间的帧间特征关联度,及第一词性特征和第二词性特征之间的词性间特征关联度,将所述帧间特征关联度与所述词性间特征关联度进行时间维度特征匹配,获得时间维度特征匹配结果;
对所述空间维度特征匹配结果和所述时间维度特征匹配结果进行融合,获得联合空间时间维度特征匹配结果;
将所述联合空间时间维度特征匹配结果作为正则项与对比排序损失函数进行数学运算获得损失函数;
利用反向梯度传播法对所述预训练的视频文本跨模态模型的参数进行训练,直至所述损失函数实现收敛。
5.根据权利要求4所述的视频文本跨模态检索方法,其特征在于,获取训练样本集之后,对所述视频进行分帧处理,并提取帧特征之前,所述方法还包括:
获取验证样本集;
将所述训练数据集中的视频和文本分别写入到以视频和文本序列号名称作为查询键的字典文件中。
6.根据权利要求5所述的视频文本跨模态检索方法,其特征在于,对各所述字典文件中序列号名称对应的视频进行分帧处理,各所述字典文件中序列号名称对应的文本进行分词处理。
7.根据权利要求5所述的视频文本跨模态检索方法,其特征在于,所述损失函数实现收敛后,所述方法还包括:
将所述验证样本集中的每一段视频输入所述训练好的跨模态检索模型中;
计算所述训练好的跨模态检索模型搜索到的前预设数目个搜索结果中出现正确样本占验证样本集中总样本数的比例,得到第一检索准确率结果;
将所述第一检索准确率结果与仅利用对比排序损失函数作为损失函数进行训练的跨模态检索模型时获取的第二检索准确率结果进行性能增益的判定;
当所述第一检索准确率结果与所述第二检索准确率结果相比存在性能增益时,确定跨模态检索模型训练正确。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国电信集团系统集成有限责任公司,未经中国电信集团系统集成有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111095182.1/1.html,转载请声明来源钻瓜专利网。