[发明专利]一种基于注意力机制和模态依赖的跨媒体交叉检索方法有效
申请号: | 202111334294.8 | 申请日: | 2021-11-11 |
公开(公告)号: | CN113792167B | 公开(公告)日: | 2022-02-15 |
发明(设计)人: | 姚亚洲;孙泽人;陈涛;张传一;沈复民 | 申请(专利权)人: | 南京码极客科技有限公司 |
主分类号: | G06F16/483 | 分类号: | G06F16/483;G06F16/432;G06F16/35;G06N3/04;G06N3/08;G06T5/00 |
代理公司: | 成都君合集专利代理事务所(普通合伙) 51228 | 代理人: | 尹新路 |
地址: | 211899 江苏省南京*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 注意力 机制 依赖 媒体 交叉 检索 方法 | ||
本发明涉及跨媒体检索技术技术领域,公开了一种基于注意力机制和模态依赖的跨媒体交叉检索方法,包括以下步骤:步骤S1.根据提取器获取媒体类型数据,媒体类型数据包括文本数据、图像数据、音频数据和视频数据;步骤S2.基于文本卷积网络、图像卷积网络、三元组损失函数、判别损失函数和分类损失函数对文本数据和图像数据创建图像文本网络;步骤S3.基于注意力机制、交叉熵损失函数、中心损失函数、四元组损失函数和分布损失函数对图像数据、音频数据和视频数据创建图像音频网络;步骤S4.对图像文本网络和图像音频网络训练后进行跨媒体交叉检索。本发明通过注意力机制与模态依赖进行细粒度跨媒体检索。
技术领域
本发明涉及跨媒体检索技术领域,具体地说,是一种基于注意力机制和模态依赖的跨媒体交叉检索方法,用于保留图像文本语义特征的同时消除语义鸿沟并学习三种媒体特征,能够提升四种媒体相互检索的性能。
背景技术
近年来,随着多媒体数据的快速增长,丰富多元的数据充斥着人们的生活,图像、文本、音频和视频等多媒体数据已经成为了人们认识世界的主要方式。海量的多媒体数据之间的相关性在不断提高,同时用户对多媒体数据的检索需求也变得非常灵活,不仅需要满足于单一类型数据的检索,还需要能够从海量的数据中快速精准地检索出自己感兴趣的数据。因此,细粒度跨媒体检索的研究应用广泛,在信息检索方面,丰富了用户获取信息的多样性,同时提高了用户获取信息的效率。在模式识别、人机交互方面,使人和机器之间交流和互动更加的方便和快捷。在教育、医学航空等领域,机器可以通过跨媒体检索去教授人学习不同细粒度物体的图像音频等特征。
现有的传统方法往往是通过标签信息学习媒体间和媒体内的关系,从而进行细粒度跨媒体检索。这种方法所存在很多缺陷:
1、媒体鸿沟问题,不同媒体类型的数据样本的特征表示差别巨大,因此直接度量它们之间的相似性是一个非常困难的问题。
2、语义鸿沟问题,计算机的特征表示与人们理解的不一致的问题,从而导致低层特征和高层语义之间的差异。
3、细粒度级别导致的类间差异小、类内差异大的问题会导致跨媒体检索的性能不高。
4、文本和音频、视频之间的检索与文本和图像之间的检索相比,准确率更低。这是由于文本和音频、视频之间的相关性比较低所导致的。当检索的媒体类型较多时,将不同媒体的特征映射到一个公共空间中可能会损失媒体特征的一些信息。为了解决上述问题,亟需一种技术方案,能够通过注意力机制与模态依赖进行细粒度跨媒体检索。
发明内容
本发明的目的在于提供一种基于注意力机制和模态依赖的跨媒体交叉检索方法,实现通过注意力机制与模态依赖进行细粒度跨媒体检索的功能,可以保留原始语义特征、消除媒体鸿沟、提升检索性能。
本发明通过下述技术方案实现:一种基于注意力机制和模态依赖的跨媒体交叉检索方法,包括以下步骤:
步骤S1.根据提取器获取媒体类型数据,媒体类型数据包括文本数据、图像数据、音频数据和视频数据;
步骤S2.基于文本卷积网络、图像卷积网络、三元组损失函数、判别损失函数和分类损失函数对文本数据和图像数据创建图像文本网络;
步骤S3.基于注意力机制、交叉熵损失函数、中心损失函数、四元组损失函数和分布损失函数对图像数据、音频数据和视频数据创建图像音频网络;
步骤S4.对图像文本网络和图像音频网络训练后进行跨媒体交叉检索。
在本技术方案中,以图像数据作为中间媒介,分别设计了图像文本网络和图像音视频网络,并基于这两个网络进行跨媒体检索。另提出了基于关键帧的视频去噪方法,通过对视频数据集中的数据进行样本选择从而获得干净的数据集。同时针对不同的跨媒体检索任务,在细粒度级别和粗粒度级别的数据集上进行了大量的对比实验,充分验证了所提方法的有效性。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京码极客科技有限公司,未经南京码极客科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111334294.8/2.html,转载请声明来源钻瓜专利网。