[发明专利]用于无监督跨模态检索的充分场景表达生成方法有效
申请号: | 202110306464.5 | 申请日: | 2021-03-23 |
公开(公告)号: | CN113010697B | 公开(公告)日: | 2022-09-20 |
发明(设计)人: | 沃焱;罗杰庭 | 申请(专利权)人: | 华南理工大学 |
主分类号: | G06F16/383 | 分类号: | G06F16/383;G06F16/31;G06F16/583;G06F16/55;G06F16/51;G06N3/04;G06N3/08 |
代理公司: | 广州市华学知识产权代理有限公司 44245 | 代理人: | 冯炳辉 |
地址: | 510640 广*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 监督 跨模态 检索 充分 场景 表达 生成 方法 | ||
本发明公开了一种用于无监督跨模态检索的充分场景表达生成方法,包括:1)对不同模态的数据分别提取局部特征,并构造相对应的局部特征集;2)基于各模态数据的局部特征集,为不同模态的数据生成对应的统计表达;3)基于统计表达定义各模态对应的统计流形,并据此构造相应的公共统计流形;4)搭建多个浅层神经网络来学习不同模态间的投影,为多模态数据补齐自身所缺失的其它模态下的统计表达;5)将多模态数据自身的统计表达与所学习到的其它模态下的统计表达进行级联,从而获得一个包含充分的场景信息的表达,并相应地将各模态的数据统一嵌入到公共统计流形中以进行跨模态检索。本发明为不同模态的数据生成充分场景表达来进行更加精确的跨模态检索。
技术领域
本发明涉及多模态数据检索的技术领域,尤其是指一种用于无监督跨模态检索的充分场景表达生成方法。
背景技术
随着信息技术的不断发展,网络上不同模态的数据总量也越来越大,这使得传统基于文本关键字的单模态检索引擎难以满足用户高效地检索其它模态数据的需求。例如,当用户拿到一张关于某景点的照片时,传统的单模态检索引擎无法根据该照片匹配其对应的文字介绍或者语音介绍返回给用户;而跨模态检索引擎则能根据用户所提供的任意模态的数据匹配与其内容最接近的其它模态的数据并返回给用户。因此,为了满足用户日益增长的检索需求,有效的跨模态检索引擎成为了一种迫切的需要。
在跨模态检索领域,目前主流的方法可大致分为有监督方法和无监督方法。有监督方法主要是利用一些监督信息,如:类别标签、相似性标签等,来帮助学习不同模态之间的关联从而为多模态数据生成有效的公共表达以进行跨模态检索。虽然有监督方法在实验数据上都有较好的表现,但是对多模态数据进行打标签需要耗费大量的人力和时间,且这种打标签的成本会随着数据量的增长而不断增加。因此,在多模态数据量呈爆炸性增长的今天,有监督方法难以在实际中得以应用。与有监督方法不同,无监督方法不需要借助任何标签信息,仅利用多模态数据间一一对应的关系来挖掘不同模态之间的关联,所以无监督跨模态检索方法的现实价值与实用性更高。
无监督方法又可以大致分为以下几种方法:基于相似性保持的方法、基于矩阵分解的方法、基于图模型的方法。基于相似性保持的方法主要通过在公共空间中同时保持模态内相似性与模态间相似性来为多模态数据生成公共表达。而基于矩阵分解的方法则认为一个实例所对应的不同模态的数据应该在公共空间中有着相同的表达,然后这类方法主要是通过矩阵分解的方式来学习这一个表达。对于基于图模型的方法,它们一般会先将数据间的关系通过图模型来进行建模,然后使用图模型中所构造的关系来对跨模态学习的过程进行约束,使得图模型中的数据关系能够保持到生成的公共表达中。然而,这些方法大多忽略了多模态数据的本质,对多模态数据的公共表达缺乏一个清晰的建模,所生成的公共表达存在信息表达不充分的问题;而且它们总是过于关注如何将大量的多模态数据关系保持到公共空间中,导致它们所生成的公共空间出现数据分布混乱的问题。而这些问题也导致了它们的跨模态检索精度不高。
发明内容
本发明的目的在于克服现有技术的缺点与不足,提出了一种用于无监督跨模态检索的充分场景表达生成方法,该方法将多模态数据的公共表达清晰地建模为包含充分场景信息的表达(简称充分场景表达),并通过表达补齐的方式,在不需要考虑数据间过多的关系的情况下,为不同模态的数据生成充分场景表达来进行更加精确的跨模态检索,能有效解决现有技术方法中存在的公共表达信息不充分以及公共空间分布混乱的问题。
为实现上述目的,本发明所提供的技术方案为:用于无监督跨模态检索的充分场景表达生成方法,包括以下步骤:
1)对不同模态的数据分别提取局部特征,并构造相对应的局部特征集;
2)基于各模态数据的局部特征集,分别为不同模态的数据生成对应的统计表达;
3)基于步骤2)中生成的各模态数据的统计表达定义各模态对应的统计流形,并据此构造相应的公共统计流形;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华南理工大学,未经华南理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110306464.5/2.html,转载请声明来源钻瓜专利网。