[发明专利]一种基于双语义空间的对抗性跨媒体检索方法有效
申请号: | 201811106799.7 | 申请日: | 2018-09-21 |
公开(公告)号: | CN109344266B | 公开(公告)日: | 2021-08-06 |
发明(设计)人: | 王文敏;夏雅娴;韩梁;王荣刚;李革;高文 | 申请(专利权)人: | 北京大学深圳研究生院 |
主分类号: | G06F16/48 | 分类号: | G06F16/48;G06F16/435 |
代理公司: | 北京万象新悦知识产权代理有限公司 11360 | 代理人: | 黄凤茹 |
地址: | 518055 广东省深*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公布了一种基于双语义空间的对抗性跨媒体检索方法,涉及模式识别、自然语言处理、多媒体检索等技术领域;包括:特征生成过程、双语义空间的构建过程和对抗性语义空间优化过程。本发明通过建立同构双语义空间,即文本子空间和图像子空间,实现在最大限度保留原有图像和文本信息的同时消除语义鸿沟;并通过对抗训练来优化同构子空间数据分布,挖掘多媒体数据中丰富的语义信息,在保证类别不变、模态可区分的情况下拟合语义空间中不同模态的向量分布。本发明方法能够有效的消除不同模态信息异构性,实现有效的跨媒体检索,在图文检索、模式识别等领域具有广泛的市场需求和应用前景。 | ||
搜索关键词: | 一种 基于 双语 空间 对抗性 媒体 检索 方法 | ||
【主权项】:
1.一种基于双语义空间的对抗性跨媒体检索方法,通过建立文本子空间和图像子空间,分别保留不同模态内部特征,并通过对抗训练挖掘多媒体数据中的语义信息,从而实现有效的跨媒体检索;包括:特征生成过程、双语义空间的构建过程和对抗性语义空间优化过程;1)特征生成过程;执行如下操作:获取训练数据,验证数据及测试数据;利用深度卷积神经网络CNN模型,对训练及测试图像提取视觉特征向量,利用BoW模型对训练和测试文本提取得到BoW文本特征向量;设有n组训练数据,提取到的特征分别表示为图像特征I={i1,i2,…,in}和文本特征T={t1,t2,…,tn};2)双语义空间的构建过程,包括图像子空间和文本子空间;执行如下操作:21)在图像子空间中,分别用三层的全连接网络实现对文本特征的映射以及图像特征在原有维度上的调整,同时引入三元组损失进行同构空间特征优化,保留图像信息并消除语义鸿沟;具体执行如下操作:211)在图像子空间中,图像特征I经过三层全连接网络在原有维度上调整特征分布,网络最后一层使用ReLU激活函数;引入三层全连接网络,将文本特征T映射到图像空间当中,保留原有图像特征;212)在同构图像子空间中定义三元组其中vi表示参照用图片,为与vi类别相同的正样例文本,表示与vi类别不同的负样例文本;使用L2范数计算的不同模态数据间距离,表示为式1:其中,fv(i)与ft(t)分别为图像与文本的映射函数,表示同构空间内图像文本间的欧式距离;引入图像子空间三元组约束调整文本图像分布,拉近相同语义的文本图像对的距离,同时增加语义不同的图像文本对间距离;图像子空间三元组损失可以表示为式2:其中,α为表示安全系数的超参数;为图像子空间三元组损失;V表示图像子空间;22)在文本子空间中实现图像特征映射及文本特征调整;执行如下操作:221)在文本子空间中,文本特征T利用文本映射函数ψt(T)在原文本特征空间进行分布调整,图像映射函数ψv(I)将图像特征I映射到文本空间当中,实现文本子空间内不同模态特征同构;222)文本子空间的三元组损失表示为式3:其中,α为表示安全系数的超参数;ΦT表示文本子空间内的三元组ti为参照用文本,是与ti类别相同的正样例图片,是与ti类别不同的负样例图片;223)图像子空间和文本子空间平行工作,实现特征提取的互补与平衡;将双子空间的三元组损失适应性融合,得到最终不同模态在同构空间新的特征分布,表示为式4,其中ηV、ηT为超参数:3)对抗性语义空间优化过程;执行如下操作:31)采用类别预测方法,设定包含图像子空间和文本子空间的类别恒定目标函数,分别对图像子空间和文本子空间进行优化,使得子空间内不同模态特征映射或调整前后类别不变;设定图像子空间内的目标函数文本子空间内的目标函数是最小化数据类别真实分布与同构空间内向量的类别预测分布间的误差;类别恒定目标函数表示为式7:32)利用对抗性学习模型更新优化双空间网络参数,将步骤212)、221)中的同构空间特征表示fv(v)、ft(t)、ψv(I)与ψt(T)作为对抗性学习模型的生成器生成向量,生成器的优化目标为在保证类别恒定的前提下使得图像和文本在双子空间内的分布尽量相似,优化函数LG表达式为式8:LG=μc·Lc+μtri·Ltri (式8)其中,μc、μtri为超参数;对抗性学习模型的判别器的目标是尽量准确地判断出不同模态数据在双子空间内的向量是来自图像还是文本;设定图像子空间内的优化目标为文本子空间内目标函数为判别器在双子空间内的目标函数LD表示为式11:生成器与判别器的目标函数交替训练,得到最优化的两个同构语义空间;利用最优化的同构双语义空间,完成“图像检索文本(Img2Text)”和“文本检索图像(Text2Img)”,即可实现基于双语义空间的对抗性跨媒体的检索。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京大学深圳研究生院,未经北京大学深圳研究生院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201811106799.7/,转载请声明来源钻瓜专利网。
- 上一篇:一种资源管理方法及装置
- 下一篇:基于PGIS地图的接力追踪方法及系统