[发明专利]一种基于自监督的跨模态深度哈希检索方法有效
申请号: | 201910599265.0 | 申请日: | 2019-07-04 |
公开(公告)号: | CN110309331B | 公开(公告)日: | 2021-07-27 |
发明(设计)人: | 王轩;漆舒汉;李逸凡;蒋琳;廖清;刘洋;夏文;李化乐;吴宇琳;贾丰玮 | 申请(专利权)人: | 哈尔滨工业大学(深圳) |
主分类号: | G06F16/51 | 分类号: | G06F16/51;G06F16/583;G06F16/31;G06F16/33;G06K9/62 |
代理公司: | 深圳市添源知识产权代理事务所(普通合伙) 44451 | 代理人: | 黎健任 |
地址: | 518000 广东省深圳市南*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 监督 跨模态 深度 检索 方法 | ||
本发明专利涉及一种基于自监督的跨模态联合哈希检索方法,该方法包括以下步骤:步骤1:针对图像模态数据进行处理:采用深度卷积神经网络对图像模态的数据进行特征提取,对图片数据进行哈希学习,将深度卷积神经网络的最后一层全连接层的节点个数设置为哈希码的长度;步骤2:针对文本模态数据进行处理:使用词袋模型对文本数据进行建模,建立一个两层的全连接神经网络对文本模态的数据进行特征提取,神经网络的输入是使用词袋模型表示的词向量,第一个全连接层节点的数据与第二个全连接层节点的数据与哈希码的长度相同;步骤3:针对类别标签处理的神经网络:采用自监督的训练方式从标签数据中提取语义特征;步骤4:最小化图像与文本网络所提取的特征与标签网络的语义特征间的距离,使得图像与文本网络的哈希模型能够更充分学习不同模态间的语义特征。
技术领域
本发明属于一种跨模态深度哈希检索技术领域,特别涉及一种基于自监督的跨模态深度哈希检索方法。
背景技术
人工智能技术自诞生以来经历了多次的爆发期与寒冬期,而这次人工智能技术的爆发更加来势汹汹,因为与之前几次的爆发相比,具有一个鲜明的特点——以大数据为基础。大数据不仅仅是因其数据量大,更重要的是其数据种类具有多样性,且数据的价值密度较低。我们每天都会产生和接收各种信息,而这些信息都会被记录下来,然后通过各种人工智能技术来分析我们的日常行为、生活习性,以便为我们的生活提供各种便利性的服务。在海量的多媒体数据之中,有些数据并不是相互独立的,它们很可能是对同一事物的不同表现方式的描述,在语义上具有一定的相似性。如何从这些不同类型的数据中检索到所需的数据是一个充满挑战的问题,也逐渐得到了学术界的广泛关注,这就是跨模态检索。
跨模态检索的适用范围比单模态检索要广,其以任一种模态的数据作为被查询的示例,从海量的多媒体数据库中查询与之具有语义相关性的其他模态的数据。跨模态检索本质是跨越多种模态信息间描述方式上的鸿沟,通过子空间学习,将它们映射到同一维度空间上进行度量,以此把语义表达上具有相似性的不同模态间的数据联系起来,达到可以只用一种模态的数据就检索出其他模态数据的目的。
目前基于哈希的跨模态检索方法通常关注于如何对不同模态的数据(例如图像和文本)进行特征提取,再将不同模态的数据特征映射到一个共同的子空间中,再通过一定的度量手方法(例如汉明距离)来形式化表示各种数据间的相似性。但这些方法都忽略了最重要的标签数据的语义价值,仅仅使用标签数据生成相似性矩阵,没有充分利用标签数据描述更细粒度的标签信息,更准确的描述所属的类别数据。同时,因为现有的数据集中存在数据不平衡问题,即不同模态中相似的数据量远小于不相似的数据量,而现有的方法没有对数据不平衡问题进行处理,容易导致训练不充分甚至过拟合的情况。同时,因为需要生成哈希码来表示各种模态的数据,现有的方法大都在神经网络的最后一层添加sigmoid函数将其输出压缩到0和1之间,再通过符号函数生成离散的二值码,但sigmoid函数本身在反向传播时极易导致神经网络出现梯度消失的状况,而且直接将神经网络的输出数值压缩到0和1之间后,无论是对图像还是文本数据都会造成一定的信息损失。
针对上述问题,本发明首先设计了一种自监督的跨模态哈希方法,能针对类别标签数据进行特征提取,使模型能够对数据的语义相关性进行建模,帮助图像与文本数据的特征分布趋于一致,让模型更准确地学习出不同模态数据之间的语义相似度;同时,针对现有数据集中存在的数据不平衡问题,设计了自适应权重的损失函数,能够根据每次输入神经网络的训练样本中正负样本的比例,自动调整对正负样本的惩罚的权重;最后使用一个设计好的二值约束项直接对网络的输出进行二值化处理,替换掉sigmoid函数,避免训练过程中的梯度消失状况。
发明内容
为克服已有技术的不足之处,本发明提出基于自监督的跨模态深度希哈检索方法,以避免训练过程中的梯度消失状况。
为达到此目的,本发明采用以下技术方案:
一种基于自监督的跨模态联合哈希检索方法,该方法包括以下步骤:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨工业大学(深圳),未经哈尔滨工业大学(深圳)许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910599265.0/2.html,转载请声明来源钻瓜专利网。