[发明专利]一种基于多输入多输出融合网络的广义零样本学习方法有效
申请号: | 202110096703.9 | 申请日: | 2021-01-25 |
公开(公告)号: | CN112766386B | 公开(公告)日: | 2022-09-20 |
发明(设计)人: | 钟芳明;陈志奎;张素华 | 申请(专利权)人: | 大连理工大学 |
主分类号: | G06V10/764 | 分类号: | G06V10/764;G06V10/74;G06V10/774;G06V10/82;G06N3/04;G06N3/08 |
代理公司: | 大连理工大学专利中心 21200 | 代理人: | 李晓亮;潘迅 |
地址: | 116024 辽*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 输入 输出 融合 网络 广义 样本 学习方法 | ||
一种基于多输入多输出融合网络的广义零样本学习方法,属于计算机技术领域。步骤包括:首先,构建多输入多输出的融合网络、用于对抗训练融合网络的判别网络、用于最小化重构损失的重构网络、引入分类损失优化公共语义表示学习的分类网络,其中,融合网络以不同方式串联组合作为输入,编码成潜在语义表示后分别输出。其次,流形学习和域结构的保持。最后,模型训练优化、生成伪样本训练分类器、和识别广义零样本图像。本发明主要针对零样本图像识别中生成模型训练不够稳定问题,设计融合网络,即使仅使用类别语义嵌入也能生成与配对数据相似的公共语义,以此生成伪样本,实现广义零样本图像识别,实验验证表明,能够有效解决广义零样本图像识别问题。
技术领域
本发明属于计算机技术领域,涉及一种广义零样本学习方法。
背景技术
近年来,随着互联网上爆发性的数据增长,新事物不断涌现,难以收集足够的标记数据来训练图像识别模型。为此,专家学者提出了零样本学习的概念,引起了广泛的研究兴趣。零样本学习是受人类认知新事物的过程所启发,企图从有限的知识或者其他的已知事物中,辅以相应的知识描述,认知新事物。零样本学习中可见类是训练过程中能够使用的类,而不可见类是训练过程中不可使用,测试过程中使用的类。即从可见类数据中学习知识,进而能够迁移到不可见类中,进行零样本图像识别。因此能够解决标记数据不足和缺失的难题。现有的零样本学习工作大多数从可见类数据中学习一个视觉-语义映射,然后将此映射泛化到不可见类数据上。然而现有工作大部分在测试过程中仅仅使用不可见类,即仅做了零样本图像识别,未综合判断不可见类数据和可见类数据的准确率。该测试场景是不合理的,因为测试数据既可能来自不可见类,也可能来自可见类。因此,广义零样本学习越来越引起学者们的关注,在广义零样本学习中,新数据既可能来自不可见类,也可能来自可见类,更加贴合实际应用。
许多现有工作提出将视觉特征投影到语义空间,该语义空间可以是人为定义的属性空间或是类名词向量构成的嵌入空间。此类方法存在一个不可避免的缺陷便是域便宜问题,这是由于可见类和不可见类数据的分布存在差异,而在训练中仅仅使用了可见类数据,使得预测结果会偏向可见类数据。也有许多工作是学习视觉特征和语义的一个公共子空间,然而此类方法存在枢纽点问题。近些年,一些生成模型例如生成对抗网络(GAN)方法被提出,该类方法通过合成假的不可见类图片或者视觉特征来解决零样本问题。然而基于生成对抗网络的方法在模型训练时不够稳定,依然不能取得理想的结果。基于此,同样是生成方法的变分自动编码机方法被应用于假样本生成,通过匹配输入数据到一个已知的分布,然后利用该先验分布来合成假样本或者视觉特征,然而如何建立视觉特征和语义嵌入之间的关联性,找到一个较好的公共语义表示仍然存在巨大挑战。
为解决以上问题,本发明设计了一种基于多输入多输出融合网络的广义零样本学习方法,解决在图像领域的零样本识别问题。融合网络接收四种不同类型的输入,分别生成对应的公共语义表示并输出。对于其中的单输入问题,采用补零策略。核心目的是为了使不同类型的输入能够计算输出语义相似的公共表示,采用三个判别网络来区分不同的输出数据,以此通过对抗的方式来训练融合网络,达到生成高质量公共语义表示的目的,并且考虑了数据的重构损失,提高生成伪样本的质量,此外还考虑了局部域结构提高判别性。然后,便可以使用类别语义嵌入作为输入生成不可见类和可见类的伪样本,来训练分类器,进行广义零样本的识别任务。
发明内容
本发明针对广义零样本图像识别问题,探究一种基于多输入多输出融合网络的广义零样本学习方法,利用不同的数据类型来训练融合网络,以达到生成伪样本的目的。该方法利用了生成对抗的思想,试图使具有相同语义信息的输入数据生成相似的语义表示,构建融合网络,接收不同类型的输入,采用重构网络重构出输入,采用判别网络区分不同输入输出的语义表示,对抗训练融合网络。通过视觉特征和对应类别语义嵌入的不同方式的组合,构建4种不同类型的输入。网络训练好之后,基于类别语义嵌入,同时生成不可见类和可见类的视觉特征伪样本,然后,将零样本学习转化成一个完全有监督的分类问题。一旦测试样本到来,不管是来自可见类还是不可见类,都能够用训练好的分类器进行分类识别。
为了达到上述目的,本发明采用的技术方案为:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于大连理工大学,未经大连理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110096703.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种铝塑复合板及其制备方法和应用
- 下一篇:一种圆柱物料自动整理传送装置