[发明专利]一种多模态复合编码图像检索方法和系统在审
申请号: | 202111266796.1 | 申请日: | 2021-10-28 |
公开(公告)号: | CN113971222A | 公开(公告)日: | 2022-01-25 |
发明(设计)人: | 张桂荣 | 申请(专利权)人: | 重庆紫光华山智安科技有限公司 |
主分类号: | G06F16/58 | 分类号: | G06F16/58;G06F16/583;G06F16/78;G06F16/783 |
代理公司: | 上海光华专利事务所(普通合伙) 31219 | 代理人: | 李铁 |
地址: | 400700 重庆市*** | 国省代码: | 重庆;50 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 多模态 复合 编码 图像 检索 方法 系统 | ||
1.一种多模态复合编码图像检索方法,其特征在于,包括:
获取待检索信息,并判定待检索信息的数据类型;
根据所述待检索信息的数据类型选择进行粗粒度检索或细粒度检索,所述细粒度检索包括当输入的待检索信息同时包括图像和文本描述数据时,通过对两种特征进行融合,获取复合特征,进而通过所述复合特征进行数据检索,获取目标数据;所述粗粒度检索包括当输入的待检索信息包括图像或文本描述数据之一时,根据对应的特征进行数据检索,获取目标数据。
2.根据权利要求1所述的多模态复合编码图像检索方法,其特征在于:
预先建立识别模型并进行训练,所述识别模型包括用于图像描述生成的第一模型、用于文本处理的第二模型,以及用于多模态特征提取的第三模型;
通过所述第一模型对输入的图像数据进行处理,获取第一输出结果,所述第一输出结果包括图像特征编码以及图像内容的文本描述;
通过所述第二模型对输入的文本数据和/或第一模型输出的所述图像内容的文本描述进行处理,获取第二输出结果;
当输入的待检索信息为文本描述时,通过所述第二模型的输出结果进行所述粗粒度检索;
当输入的待检索信息为图像时,通过所述第一输出结果中的图像特征编码进行所述粗粒度检索,或者,将第一输出结果中的图像内容的文本描述输入至第二模型,通过第一输出结果中的图像特征编码和第二输出结果进行细粒度检索;
当同时输入的图像和文本描述时,将图像输入至第一模型,将文本描述输入至第二模型,再将各自的输出结果同时输入至所述第三模型,根据第三模型的输出结果进行所述细粒度检索。
3.根据权利要求2所述的多模态复合编码图像检索方法,其特征在于:所述第二输出结果包括文本特征的文本编码,当输入的文本数据和/或第一模型输出的所述图像内容的文本描述包括多个句子时,所述文本编码为包括句子全局特征和局部特征的混合编码。
4.根据权利要求2所述的多模态复合编码图像检索方法,其特征在于,通过所述第二模型对输入的文本数据和/或第一模型输出的所述图像内容的文本描述进行处理,获取包含文本特征的文本编码包括:
获取句子向量,并将所述句子向量作为混合编码的句编码部分;
对所述多个句子进行词性标注,并进行命名实体识别,获取用于与检索相关词性的词语,及词向量,并将所述词向量作为混合编码的词编码部分;
通过所述句编码部分和词编码部分,获取包含句子全局特征和局部特征的混合编码;
所述句编码部分和词编码部分均作为检索特征。
5.根据权利要求2所述的多模态复合编码图像检索方法,其特征在于,所述通过对两种特征进行融合,获取复合特征包括:
根据第一模型和第二模型对输出结果,对图像特征和文本特征进行拼接,获取特征矩阵,完成初步融合;
通过一特殊卷积对所述特征矩阵进行注意力机制处理,获取新特征矩阵;
通过对所述新特征矩阵与原始特征矩阵进行通道融合,完成最终融合。
6.根据权利要求5所述的多模态复合编码图像检索方法,其特征在于:
通过一特殊卷积对所述特征矩阵进行注意力机制处理,获取将图向量与所有文本特征进行融合的新特征矩阵,所述特殊卷积的长度为特征矩阵的向量长度;
将所述新特征矩阵与原始特征矩阵进行通道融合,形成2通道特征图,完成最终融合。
7.根据权利要求5所述的多模态复合编码图像检索方法,其特征在于,所述初步融合包括:
获取图向量,图向量所对应的所有句子向量,以及所有句子对应的词向量;
按图向量、图像对应的第一句子向量、第一句子对应的第一词向量的顺序,依次将图像中所有词向量进行拼接,获取所述包含图像特征和文本特征的特征矩阵。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆紫光华山智安科技有限公司,未经重庆紫光华山智安科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111266796.1/1.html,转载请声明来源钻瓜专利网。
- 彩色图像和单色图像的图像处理
- 图像编码/图像解码方法以及图像编码/图像解码装置
- 图像处理装置、图像形成装置、图像读取装置、图像处理方法
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序以及图像解码程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序、以及图像解码程序
- 图像形成设备、图像形成系统和图像形成方法
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序