[发明专利]一种基于文本概念扩展的跨模态检索算法在审
申请号: | 202210429614.6 | 申请日: | 2022-04-22 |
公开(公告)号: | CN114880493A | 公开(公告)日: | 2022-08-09 |
发明(设计)人: | 王树徽;方晟 | 申请(专利权)人: | 镇江智栎高科技有限公司 |
主分类号: | G06F16/383 | 分类号: | G06F16/383;G06F16/36;G06N5/02;G06K9/62;G06F16/583;G06F40/30 |
代理公司: | 重庆莫斯专利代理事务所(普通合伙) 50279 | 代理人: | 刘强 |
地址: | 212000 江苏省镇江市润州*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 文本 概念 扩展 跨模态 检索 算法 | ||
本发明涉及跨模态检索技术领域,具体涉及一种基于文本概念扩展的跨模态检索算法,包括对视频进行预处理,得到视频嵌入特征表示;对文本进行预处理得到文本嵌入特征表示;计算视频嵌入特征表示和文本嵌入特征表示的相似度得到隐空间相似度;通过编码器对视频进行加深得到视频概念;利用语法解析对文本进行解析得到初始概念;通过文本概念扩展机制对初始概念进行拓展得到文本概念;计算视频概念与文本概念之间的相似度得到概念空间相似度;对隐空间相似度和概念空间相似度进行加权计算得到融合相似度模型;基于检索指令并利用融合相似度模型进行检索排序,解决了视频信息量与文本信息量不平衡,降低了检索性能的问题。
技术领域
本发明涉及跨模态检索技术领域,尤其涉及一种基于文本概念扩展的跨模态检索算法。
背景技术
跨模态检索需要利用给定模态数据从海量信息中找到在语义层面相关联的数据,因此,跨模态技术主要解决的问题是如何对齐不同模态数据的语义。
现有的视频文本检索算法为不同模态的样本找到一个公共的嵌入空间,在这个共享空间内实现异构模态间的关系度量。这一类方法的优势在于视频和文本编码器的多样性,能够得到不同模态表征能力较强的特征,从而实现更精准的检索。
以上方法分别以概念和深度特征作为桥梁,但是缺乏对视频文本检索问题的深入探讨。由于视频包含音频、图像等多个模态,视频含有非常丰富的信息量。相比于视频,文本中的信息要少很多,这种信息量存在不平衡,降低了检索性能的问题。
发明内容
本发明的目的在于提供一种基于文本概念扩展的跨模态检索算法,旨在解决视频信息量与文本信息量不平衡,降低了检索性能的问题。
为实现上述目的,本发明提供了一种基于文本概念扩展的跨模态检索算法,包括以下步骤:
对视频进行预处理,得到视频嵌入特征表示;
对文本进行预处理,得到文本嵌入特征表示;
计算所述视频嵌入特征表示和所述文本嵌入特征表示的相似度,得到隐空间相似度;
通过编码器对所述视频进行加深,得到视频概念;
利用语法解析对所述文本进行解析,得到初始概念;
通过文本概念扩展机制对所述初始概念进行拓展,得到文本概念;
计算所述视频概念与所述文本概念之间的相似度,得到概念空间相似度;
对所述隐空间相似度和所述概念空间相似度进行加权计算,得到融合相似度模型;
基于检索指令并利用所述融合相似度模型进行检索排序。
其中,所述对视频进行预处理,得到视频嵌入特征表示的具体方式为:
按照预设帧率对视频进行关键帧抽取,得到视频帧;
利用残差网络提取所述视频帧的特征,得到图像层级特征;
采用注意力机制来聚合所述图像层级特征,并学习整个视频的特征表示,得到视频层级表征;
将所述视频层级表征映射到隐空间中,得到视频嵌入特征表示。
其中,所述对文本进行预处理,得到文本嵌入特征表示的具体方式为:
利用预训练模型对文本进行训练,得到句子层级表征;
将所述句子层级表征映射到所述隐空间中,得到文本嵌入特征表示。
其中,所述编码器采用多种概念检测器叠加得到。
其中,所述通过文本概念扩展机制对所述初始概念进行拓展,得到文本概念的具体方式为:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于镇江智栎高科技有限公司,未经镇江智栎高科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210429614.6/2.html,转载请声明来源钻瓜专利网。