[发明专利]一种基于多层语义对齐的跨模态检索方法有效
申请号: | 202110374768.5 | 申请日: | 2021-04-07 |
公开(公告)号: | CN112966127B | 公开(公告)日: | 2022-05-20 |
发明(设计)人: | 王海荣;杜锦丰 | 申请(专利权)人: | 北方民族大学 |
主分类号: | G06F16/43 | 分类号: | G06F16/43 |
代理公司: | 西安研创天下知识产权代理事务所(普通合伙) 61239 | 代理人: | 郭璐 |
地址: | 750021 宁夏回族*** | 国省代码: | 宁夏;64 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 多层 语义 对齐 跨模态 检索 方法 | ||
1.一种基于多层语义对齐的跨模态检索方法,其特征在于,包括以下步骤:
步骤1:获取不同模态的数据:文本、图像和视频;
步骤2:对收集到的不同模态数据进行特征提取,将提取出的相应的文本、图像和视频特征向量,映射到公共空间,且其具体操作步骤为:
S21:将收集到的N对图像、文本、视频的跨模态数据表示为
S22:提取图像特征:将每幅图像i输入到Faster R-CNN,提取图像区域特征,得到一组图像i的特征向量其中li表示每个候选图像区域,n为候选区域个数,其计算公式为:
li=Wv.fi+bv i∈[1,2......n] (1),
其中,Wv是转换矩阵,bv是偏置系数;
S23:提取文本特征:对于文本句子T,通过Bi-GRU网络学习文本上下文特征,将得到的文本语义特征通过one-hot编码,获得每一个词的词向量表示,并通过编码矩阵将词向量嵌入到公共空间,得到文本的语义向量特征表示,其计算公式为:
其中,ej表示单词向量,Wt为Bi-GRU单元参数;
S24:提取视频特征:对于一个视频语义信息VT,利用Bi-GRU网络提取视频中的文本语义信息,利用文本语义特征代替视频提取单词特征,将得到文本语义特征通过one-hot编码,获得每一个词的词向量表示,并通过编码矩阵将单词嵌入到公共空间,得到视频V的语义向量特征表示;
步骤3:将得到的文本、图像和视频特征利用自注意力机制为特征向量分配自注意力权重,并根据注意力权重大小自适应地过滤掉无关或关联性较小的区域;
步骤4:利用自注意力机制加权后的特征向量实现不同模态间的实体对齐、关系对齐,且步骤S4的具体步骤包括:
S41:对于图像片段根据与该图像区域语义相似性,计算每个单词的注意力权重注意力权重的计算公式为:
其中表示图像区域和词向量tq语义相似性;
S42:将图像关系表示为p,q={1,...,n},其表示第p和q个区域关系,对于每个图像关系ri,根据与该图像区域语义相似性,计算每个单词的注意力权重
其中表示图像区域和单词tq的语义相似性;
S43:根据S41和S42得到的注意力权重计算实体和关系对齐,其具体步骤为:
S431:基于句子间的连词和语法规则,判断两个句子间的递进、转折和总结三类关系;
S432:将句子间的三类关系作为先验知识,引入注意力网络,得到基于句法关系约束的句子层注意力机制,其计算公式为:
其中,N是文本数量,w是情感分类模型,xi是第i个文本的向量表示,yi是第i个文本的情感极性,βi,βj分别是句子层的注意力系数,Bij是句子i和句子j的相似度,λ1,λ3是超参数;
S433:将每个句子的句向量输入到基于句法关系约束的且具有注意力机制的BiLSTM网络,最终得到文档的向量表示;
步骤5:利用文本的全局加权特征实现多标签预测,实现全局语义对齐;
步骤6:分别计算关系相似度、实体相似度和全局语义相似度;
步骤7:根据得到的关系相似度、实体相似度和全局语义相似度来计算图像和文本整体相似度,并根据整体相似度进行排序,选择排名前n个候选集实例作为最终的查询结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北方民族大学,未经北方民族大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110374768.5/1.html,转载请声明来源钻瓜专利网。
- 上一篇:多角度适应型办公座椅靠背
- 下一篇:一种高密封性的翻盖式外部接口封装结构