[发明专利]基于深度级联跨模态相关性的细粒度草图图像检索方法在审
申请号: | 202010083047.4 | 申请日: | 2020-02-07 |
公开(公告)号: | CN111324765A | 公开(公告)日: | 2020-06-23 |
发明(设计)人: | 张玥杰;王燕飞 | 申请(专利权)人: | 复旦大学 |
主分类号: | G06F16/583 | 分类号: | G06F16/583;G06F16/55;G06T7/13;G06N3/04;G06N3/08 |
代理公司: | 上海正旦专利代理有限公司 31200 | 代理人: | 陆飞;陆尤 |
地址: | 200433 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 深度 级联 跨模态 相关性 细粒度 草图 图像 检索 方法 | ||
1.基于深度级联跨模态相关性的细粒度草图图像检索系统,其特征在于,包括:深度多模态表示模块、深度多模态嵌入模块、深度三元组排序模块;其中:
所述深度多模态表示模块通过计算图像和文本在特征空间的高维映射,来获取手绘草图、图像和图像文本描述的特征,并将其输出至深度多模态嵌入模块;
所述深度多模态嵌入模块,根据深度多模态表示模块输出的特征,将不同模态的特征嵌入到同一个高维向量空间,挑选出与查询草图具有较高相似性的候选集样本,并向深度三元组排序模块输出所挑选出来的候选集样本;
所述深度三元组排序模块根据深度多模态表示模块提取的多模态特征,对深度多模态嵌入模块输出的候选集样本进行排序优化,根据排序完成后的图像列表输出与查询草图所对应的图像。
2.根据权利要求1所述的系统,其特征在于,所述深度多模态表示模块采用GoogLeNet作为手绘草图和图像的特征提取器,分别提取出其所对应的视觉语义特征;所述GoogLeNet是将输入图像转变为一个1,024维的特征向量;该特征向量的计算公式为:
其中,θS与θI是GoogLeNet分别对应手绘草图和图像包含的所有参数,S为输入的手绘草图,I为输入图像,vS与vI分别为手绘草图和图像嵌入向量;
所述深度多模态表示模块还采用Skip-thought模型作为图像文本描述的特征提取器,提取出图像文本描述所对应的文本语义特征。
3.根据权利要求1所述的系统,其特征在于,所述深度多模态嵌入模块对手绘草图、图像和图像文本描述三种不同模态的语义特征进行嵌入,挑选出较高排名的候选集样本,并向深度三元组排序模块输出所挑选出来的候选集样本;该模块整合三种模态:手绘草图、视觉图像、及图像文本描述,以进行跨模态关联学习,并将它们的特征映射至同一个公共空间,用来测量相互关联的草图-图像相关性;模块可作为排序模型,在视觉语义和文本语义级别上找到与手绘草图相似性较高的前K个候选对象。
4.根据权利要求1所述的系统,其特征在于,所述深度三元组排序模块用于对深度多模态嵌入模块的排序结果进行进一步优化;深度多模态嵌入模块的排序结果保留在视觉语义和文本语义上都与查询草图较为相似的前K个候选图像,并将最不相关的图像过滤掉;所述深度三元组排序模块用于优化此前K排名候选图像的排序效果;所述深度三元组排序模块将前K幅候选图像映射至同一个公共空间,在该空间中进一步执行重新排序的过程。
5.根据权利要求1-4之一所述的系统,其特征在于,具体工作流程为:
步骤一、所述深度多模态表示模块,利用训练的深度卷积神经网络模型对图像进行特征表示,提取出手绘草图和图像在特征空间的视觉语义特征;利用训练的深度循环网络模型对图像描述进行特征表示,提取出图像描述在特征空间的文本语义特征,并输出至深度多模态嵌入模块;
步骤二、所述深度多模态嵌入模块,对不同模态的输入特征进行嵌入,挑选出与查询草图具有较高相似性的候选集样本,并向深度三元组排序模块输出挑选出来的候选集样本;
步骤三、所述深度三元组排序模块对深度多模态嵌入模块输出的候选集样本进行排序优化,根据排序完成后的图像列表输出手绘草图所对应的图像。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于复旦大学,未经复旦大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010083047.4/1.html,转载请声明来源钻瓜专利网。