[发明专利]一种基于文本概念扩展的跨模态检索算法在审
申请号: | 202210429614.6 | 申请日: | 2022-04-22 |
公开(公告)号: | CN114880493A | 公开(公告)日: | 2022-08-09 |
发明(设计)人: | 王树徽;方晟 | 申请(专利权)人: | 镇江智栎高科技有限公司 |
主分类号: | G06F16/383 | 分类号: | G06F16/383;G06F16/36;G06N5/02;G06K9/62;G06F16/583;G06F40/30 |
代理公司: | 重庆莫斯专利代理事务所(普通合伙) 50279 | 代理人: | 刘强 |
地址: | 212000 江苏省镇江市润州*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 文本 概念 扩展 跨模态 检索 算法 | ||
1.一种基于文本概念扩展的跨模态检索算法,其特征在于,包括以下步骤:
对视频进行预处理,得到视频嵌入特征表示;
对文本进行预处理,得到文本嵌入特征表示;
计算所述视频嵌入特征表示和所述文本嵌入特征表示的相似度,得到隐空间相似度;
通过编码器对所述视频进行加深,得到视频概念;
利用语法解析对所述文本进行解析,得到初始概念;
通过文本概念扩展机制对所述初始概念进行拓展,得到文本概念;
计算所述视频概念与所述文本概念之间的相似度,得到概念空间相似度;
对所述隐空间相似度和所述概念空间相似度进行加权计算,得到融合相似度模型;
基于检索指令并利用所述融合相似度模型进行检索排序。
2.如权利要求1所述的基于文本概念扩展的跨模态检索算法,其特征在于,
所述对视频进行预处理,得到视频嵌入特征表示的具体方式为:
按照预设帧率对视频进行关键帧抽取,得到视频帧;
利用残差网络提取所述视频帧的特征,得到图像层级特征;
采用注意力机制来聚合所述图像层级特征,并学习整个视频的特征表示,得到视频层级表征;
将所述视频层级表征映射到隐空间中,得到视频嵌入特征表示。
3.如权利要求2所述的基于文本概念扩展的跨模态检索算法,其特征在于,
所述对文本进行预处理,得到文本嵌入特征表示的具体方式为:
利用预训练模型对文本进行训练,得到句子层级表征;
将所述句子层级表征映射到所述隐空间中,得到文本嵌入特征表示。
4.如权利要求1所述的基于文本概念扩展的跨模态检索算法,其特征在于,所述编码器采用多种概念检测器叠加得到。
5.如权利要求1所述的基于文本概念扩展的跨模态检索算法,其特征在于,
所述通过文本概念扩展机制对所述初始概念进行拓展,得到文本概念的具体方式为:
利用外部知识库找到概念间的联系,得到常识知识图谱;
利用所述文本中包含概念的共现频率构建关联知识图谱;
利用图注意力网络分别在所述常识知识图谱和关联知识图谱传播概念的响应值,分别得到补全常识知识图谱和补全关联知识图谱;
将所述补全常识知识图谱和所述补全关联知识图谱加和,得到文本概念。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于镇江智栎高科技有限公司,未经镇江智栎高科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210429614.6/1.html,转载请声明来源钻瓜专利网。