[发明专利]基于非线性度自适应子域领域适应的极少量训练样本下图片分类方法在审
申请号: | 202110346275.0 | 申请日: | 2021-03-31 |
公开(公告)号: | CN113420775A | 公开(公告)日: | 2021-09-21 |
发明(设计)人: | 潘杰;陈宁宁;邹筱瑜 | 申请(专利权)人: | 中国矿业大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06N3/04;G06N3/08;G06F17/16 |
代理公司: | 南京瑞弘专利商标事务所(普通合伙) 32249 | 代理人: | 马玉雯 |
地址: | 221116 江苏省*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 非线性 自适应 领域 适应 极少量 训练 样本 图片 分类 方法 | ||
本发明公开了一种基于非线性度自适应子域领域适应的极少量训练样本下图片分类方法,该方法从其它相关领域迁移知识到目标域,解决深度学习图片分类可训练标签样本少的问题。该方法综合考虑同类别分布差异和不同类别分布差异,领域适应过程中在减小同类别分布差异的基础上增大不同类别分布差异,既增加了源域和目标域同类别的可迁移性,又增加了源域和目标域不同类别间的可辨别性,并且应用最大均值差异缩小源域和目标域的边缘概率分布差异。该方法通过神经元非线性度可变的自适应寻找更适合任务的网络结构,优化了网络结构,提高领域适应能力和泛化能力,从而保证了最终的图片识别的分类精度。
技术领域
本发明属于深度学习图片分类领域,特别是涉及了基于非线性度自适应子域领域适应的极少量训练样本下图片分类方法。
背景技术
随着移动设备和计算机硬件的大幅度提升,以及互联网的普及。每天都有大量数据被收集。在利用大数据面前,机器学习取得很大进展,成为大数据挖掘信息的主要技术手段。在处理文本、图像、视频等非结构数据方面,一个至关重要的问题就是如何有效的利用来自不同领域的数据,对相关领域的数据迁移和复用。例如,人学会骑自行车之后,对于电动车和摩托车很容易掌握。如何迁移骑自行车的技术知识到电动车和摩托车上,以及如何学习到三种工具的不同之处,更快地掌握新工具。在互联网领域可以很容易得到大量有类别标签的高分辨率图像,但是在实际生活中所产生的图像像素低并且很难获取所有图像的类别,现有的机器学习方法很难取得很好的分类精度。将互联网领域所产生的大数据迁移到实际生活中的小领域数据,解决实际生活中数据标签获取难的问题,迁移学习为利用大数据解决小数据问题提供有效方法。
目前,依靠大规模训练样本和高性能硬件资源,卷积神经网络(ConvolutionalNeural Networks,CNN)在物体的识别与检测方面取得巨大成功。在机器学习的基本假设下,样本被用来训练分类器,以便对未知类别的样本进行分类,只有当测试样本与训练样本的分布相同时,学习器才能很好地工作。而在现实世界中,并不能保证语义相似的数据具有相同的特征分布。不同的采样环境,如分辨率、光照、背景等,会导致不同的分布,进而造成数据偏差与领域漂移。在训练和测试数据分布不同的情况下学习一个判别模型成为迁移学习。为了解决样本空间的特定分布,至少需要获取一些信息。通常可以从待分类目标域收集未标记数据,但是标签很难获得,或者仅有少量标签。但是,目标域数据可以学习到源域和目标域之间的不同之处,可以利用这些信息使分类器适应目标域,避免受域分布不同造成对结果的影响,以便更好的预测目标域标签。
基于以上理论,领域适应已经被广泛应用于很多现实问题中。在自然语言处理方面例如,由长文本数据学习处理短文本数据;由中文文档到英文文档等。在计算机视觉方面学习从公共数据集(Amazon、Dslr等)学习分类模型,并且迁移到生活中手机所拍摄的照片分类上。在医疗领域对,对数据的标记代价极其高,并且数据十分宝贵,例如应用多源医疗信息给出全面诊断等。
领域自适应分为浅层领域自适应和深度领域自适应。根据迁移学习的方法可以分为以下几种:基于实例的迁移是把源域中的有用样本挑选到目标域训练集中扩大样本训练集。基于特征表示迁移学习方法是把源域的实例通过特征变换映射到目标域,或者将源域和目标域的实例映射到一个子空间,目的是让源域和目标域之间的特征正分布尽量减少从而达到扩增目标域数据量的目的。基于参数的迁移学习方法是把源域模型训练的参数作为目标域模型训练的初始值从而可以训练出更好的模型。另外还有关系型知识的迁移学习方法和混合迁移学习方法等。
本专利中所提出的方法具体应用背景为存在其它领域标签图片辅助目标域少量训练样本下的图片分类问题,解决使用少量样本在避免网络过拟合的情况下学习图片分类网络。可训练样本的稀疏性,会导致传统的机器学习方法出现严重过的拟合过拟合问题,换而言之,就是学习到的分类网络只是在训练集上表现很好在测试集上结果很差。虽然一些传统的半监督学习、主动学习等也为数据的稀缺性提供了有效方法,但是他们都需要目标域有一定程度的标记数据。如果标记数据的获取代价太大,如何从不同领域中迁移知识将变得不可避免。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国矿业大学,未经中国矿业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110346275.0/2.html,转载请声明来源钻瓜专利网。