[发明专利]一种面向开放域查询的视频片段搜索方法及系统有效
申请号: | 202310010413.7 | 申请日: | 2023-01-05 |
公开(公告)号: | CN115687687B | 公开(公告)日: | 2023-03-28 |
发明(设计)人: | 刘萌;李达;许海振;宋雪萌;郭杰;李晓峰 | 申请(专利权)人: | 山东建筑大学 |
主分类号: | G06F16/73 | 分类号: | G06F16/73;G06F16/75;G06F16/36;G06V10/82;G06V20/40;G06N3/0442;G06N3/048 |
代理公司: | 济南圣达知识产权代理有限公司 37221 | 代理人: | 王雪 |
地址: | 250000 山东省济*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 面向 开放 查询 视频 片段 搜索 方法 系统 | ||
1.一种面向开放域查询的视频流行为片段搜索方法,其特征在于,包括:
获取视频数据和自然语言查询描述数据;
基于自然语言查询描述数据,采用预训练的词语编码模型,得到自然语言查询描述表示;
基于视频数据,得到候选时序视频片段;
计算自然语言查询描述表示与候选时序视频片段的相似度分数,选取相似度分数最高的候选视频片段作为目标视频片段;
所述词语编码模型训练的过程包括:获取维基百科文本语料库数据和知识图谱数据;构建词语编码模型;基于维基百科文本语料库数据和知识图谱数据,训练词语编码模型,得到预训练的词语编码模型;
所述得到预训练的词语编码模型的过程具体包括:在知识图谱数据中任意一个三元组的头部实体、关系实体以及尾部实体的描述信息开始处插入特殊占位符,然后输入至词语编码模型,得到头部实体、关系实体和尾部实体的特征表示,以此计算知识嵌入损失;从维基百科文本语料库数据中随机抽取句子,随机在句子中选择一个词语用特殊字符替换,将替换后得到的句子输入至词语编码模型,预测特殊字符得到的表示,得到预测词语;根据预测词语和原词语计算交叉熵损失;根据知识嵌入损失和交叉熵损失,优化词语编码模型,得到预训练的词语编码模型;
所述基于自然语言查询描述数据,采用预训练的词语编码模型,得到自然语言查询描述表示的过程具体包括:利用预训练的词语编码模型对自然语言查询描述数据中的词语进行编码,得到自然语言查询的词语表示序列,作为拟生成结构化的文本表示的底层节点表示;根据底层节点表示,计算底层节点的隐藏和单元状态表示;自底向上聚集节点信息,直至得到自然语言查询描述表示;所述自底向上聚集节点信息,直至得到自然语言查询描述表示的过程包括:步骤(1):基于当前层的节点表示,通过两两节点聚合,得到上一层级的候选节点表示;步骤(2):引入一个可学习的参数向量,作为查询向量,计算每一个候选节点表示与查询向量的相关度分数;步骤(3):采用Gumbel-Softmax计算分数分布,并得到采样独热向量;其中,独热向量中值为1的位置所对应的候选节点表示,作为上一层级聚集结果,其余位置则为当前层级对应位置节点表示;步骤(4):重复执行步骤(1)-步骤(3),直至某一层级仅有一个节点信息,即自然语言查询描述表示。
2.根据权利要求1所述的面向开放域查询的视频流行为片段搜索方法,其特征在于,所述基于视频数据,得到候选时序视频片段的具体过程包括:
根据视频数据,提取视频帧,得到视频单元,采用C3D网络提取视频单元,依据视频单元构建二维时序矩阵;对二维时序矩阵中的视频单元进行最大池化处理,得到候选视频时序动作片段。
3.根据权利要求1所述的面向开放域查询的视频流行为片段搜索方法,其特征在于,所述词语编码模型为包含12层Transformer的BERT模型。
4.根据权利要求1所述的面向开放域查询的视频流行为片段搜索方法,其特征在于,所述知识嵌入损失为:
其中,、/和/分别为第/条知识图谱数据的头部表示、关系表示和尾部表示,分数评估函数,/为预定义参数,/为sigmoid激活函数,/为负样本数目,/为第/条知识图谱数据的第/个负尾部实体,/为知识图谱数据数目。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山东建筑大学,未经山东建筑大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310010413.7/1.html,转载请声明来源钻瓜专利网。