[发明专利]基于受限文本空间的对抗性跨媒体检索方法有效
申请号: | 201810101127.0 | 申请日: | 2018-02-01 |
公开(公告)号: | CN108319686B | 公开(公告)日: | 2021-07-30 |
发明(设计)人: | 王文敏;余政;王荣刚;李革;王振宇;赵辉;高文 | 申请(专利权)人: | 北京大学深圳研究生院 |
主分类号: | G06F16/2458 | 分类号: | G06F16/2458;G06F16/58;G06F16/28;G06N3/08 |
代理公司: | 北京万象新悦知识产权代理有限公司 11360 | 代理人: | 黄凤茹 |
地址: | 518055 广东省深*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公布了一种基于受限文本空间的对抗性跨媒体检索方法,设计特征提取网络、特征映射网络和模态分类器,通过学习得到受限文本空间,提取适用于跨媒体检索的图像和文本特征,实现图像特征从图像空间到文本空间的映射;通过对抗性训练机制使得学习过程中不断减小不同模态数据之间特征分布的差异性;由此实现跨媒体检索。本发明能够更好地拟合人类在跨媒体检索任务中的行为表现;得到更适用于跨媒体检索任务的图像和文本特征,弥补了预训练特征在表达能力上的欠缺;引入对抗性学习的机制,通过模态分类器与特征映射网络之间的最大最小博弈,进一步提升了检索准确率。 | ||
搜索关键词: | 基于 受限 文本 空间 对抗性 媒体 检索 方法 | ||
【主权项】:
1.一种基于受限文本空间的对抗性跨媒体检索方法,设计特征提取网络、特征映射网络和模态分类器,通过学习得到受限文本空间,提取适用于跨媒体检索的图像和文本特征,实现图像特征从图像空间到文本空间的映射;通过对抗性训练机制使得学习过程中不断减小不同模态数据之间特征分布的差异性;由此实现跨媒体检索;具体地:A.特征提取网络包括图像特征提取网络和文本特征提取网络,分别用于图像特征提取和文本特征提取;图像特征提取网络通过VGGNet和NIC中的一种或两种学习得到了图像特征IConcat,包括4096维的特征IVGG和由图像描述算法所提取的图像特征INIC中的一种或两种;文本特征提取网络使用长短期记忆循环神经网络LSTM或双向LSTM网络BLSTM提取d维的文本特征;B.模态分类器作为对抗网络中的辨别器,对模态分类器的训练通过优化二分类交叉熵损失函数实现;该函数也是特征映射网络的额外的对抗损失函数;C.特征映射网络通过参数θf学习得到一个受限文本空间;针对特征提取网络学习得到图像特征IConcat包含的IVGG和INIC,在特征映射网络中设计映射函数f(·)和g(·),分别用于实现IVGG和INIC到d维文本空间特征的映射IVGG_txt和INIC_txt;在特征映射网络的顶层设计一个特征融合层,将IVGG_txt和INIC_txt融合成Ifinal,作为输入图像在受限文本空间中的d维特征表示;受限文本空间的维度为d;假设训练数据集D={D1,D2,…,Dn}共有n个样本,每个样本Di包括一张图片Ii和一段描述性文本Ti,即Di=(Ii,Ti),每一段文本由5个句子组成,每一个句子都独立地对相匹配的图片进行描述;针对数据集D,执行如下步骤1)‑4)对所述特征提取网络、特征映射网络和模态分类器进行训练:1)通过特征提取网络提取D中图像和文本的特征:对于D中的图像,使用VGG模型和图像描述算法NIC提取得到图像特征;对于D中的文本,使用长短期记忆循环神经网络LSTM提取得到文本特征,并实现文本到特征空间的映射,LSTM网络的参数与特征映射网络的参数需同步更新;2)特征映射网络将文本和步骤1)得到图像特征分别映射至初始状态下的受限文本空间,首先通过相似性衡量函数计算特征向量之间的距离,比较特征向量之间的相似度,得到当前的三元组损失;再将不同模态数据的特征向量送入模态分类器进行分类,得到当前的对抗损失;最后通过优化三元组损失和对抗损失的组合损失函数训练受限文本空间;3)将步骤2)得到的位于同一受限文本空间的图像和文本特征分别送入模态分类器进行分类,并通过交叉熵损失训练模态分类器;4)重复步骤2)‑3),直至特征映射网络收敛;5)对检索请求计算得到该检索请求数据的图像或文本在受限文本空间中与数据集D中另一模态数据之间的距离,根据距离对检索结果进行排序,进而得到最相近的检索结果;具体通过空间中不同模态数据的特征向量之间的点积计算距离;通过上述步骤,实现基于受限文本空间的对抗性跨媒体检索。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京大学深圳研究生院,未经北京大学深圳研究生院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201810101127.0/,转载请声明来源钻瓜专利网。