[发明专利]面向跨领域复杂视觉任务的孪生分类器确定性最大化方法在审

申请号：	202110107883.6	申请日：	2021-01-27
公开（公告）号：	CN112801179A	公开（公告）日：	2021-05-14
发明（设计）人：	李爽;刘驰;吕芳蕊	申请（专利权）人：	北京理工大学
主分类号：	G06K9/62	分类号：	G06K9/62;G06N3/04
代理公司：	北京中海智圣知识产权代理有限公司 11282	代理人：	曾永珠
地址：	100081 ***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	面向领域复杂视觉任务孪生分类确定性最大化方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明涉及一种面向跨领域复杂视觉任务的孪生分类器确定性最大化方法，其特征在于，包括以下步骤：步骤1，构建神经网络框架并初始化；步骤2，将源域样本输入至特征生成器G中获得相应的特征表示；步骤3，在源域样本的标签信息的监督下，利用标准交叉熵损失函数计算在源域样本上模型预测输出p与真实标签y之间的经验风险误差等步骤；本发明的优越效果在于设计了一种新型的分类器确定性差异度量CDD，利用孪生分类器的目标预测间的类别相关性来衡量分类器的差异，同时会对目标特征的可鉴别性施加隐式的约束。

技术领域

本发明涉及迁移学习领域中一种无监督领域自适应的匹配方法，确切地说，涉及一种面向图像分类、语义分割和目标检测的复杂视觉任务的孪生分类器确定性最大化方法。

背景技术

随着信息技术的飞速发展与数据规模的大幅增长，机器学习无论是在理论层面还是在实际应用中都有了很大的进展，尤其是近年来提出的深度神经网络(Deep NeuralNetwork，DNN)，已成功地应用在包括计算机视觉、自然语言处理、医疗诊断等在内的多个领域，并取得了极大的突破。然而值得注意的是，深度学习所取得的巨大成功很大程度上依赖于大规模的带标签数据。但是在很多实际应用场景中，标记数据的获取需要耗费昂贵的时间与人力成本，从而导致了标注数据稀缺的问题。无监督领域自适应技术(UnsupervisedDomain Adaptation，UDA)作为一种解决传统深度学习需要大量标注数据问题的手段随之提出，并受到了广泛关注。该技术旨在利用领域间的自适应将从标签丰富的源域中学到的知识迁移到无标签的目标域中。无监督域自适应放宽了训练数据和测试数据必须服从相同概率分布的约束，免于对每个任务都收集大量的标注数据，具有极强的研究价值与应用价值。

尽管现有的UDA方法在图像分类、语义分割、目标检测等计算机视觉任务上有着十分优越的表现，但是大多方法却倾向于仅面向某一个特定的任务场景，而无法直接应用到其他任务场景下，也很难泛化到包含不止一个任务场景的复杂视觉任务上。而随着人工智能与物联网的发展，同时涉及到诸如图像分类、语义分割、目标检测等多个任务场景的复杂视觉任务逐渐成为很多实际应用中亟需解决的问题。例如在无人驾驶领域中，对于由传感器获得的路面图像信息，既需要将其按照天气、路况、场景等进行分类，如晴天、雪天、拥堵、畅通、城市、乡村等，从而进一步调整车辆驾驶模式；也需要根据语义对图像进行分割，以识别出当前视野中哪些为街道、哪些为行人、哪些为建筑等；还需要对包括行人、车辆等进行目标检测甚至跟踪，从而精确调整车辆的行驶速度与方向。又如在医疗诊断领域，对医疗影像进行疾病分类、目标病变区域检测、按肌肉、血管、内脏等进行分割将同时作为进行最终医疗诊断的判断依据。以上的实际场景中所面临的视觉任务是极其复杂的，而现有的无监督域自适应方法却更适合于单一的任务场景。而在一个复杂视觉任务场景中同时应用多个不同模型来分别单独面向每个任务的话，势必会对系统整体的统一性、兼容性与高效性造成影响。

此外，如何利用有限的标签更好地实现领域间的对齐也是很重要的研究方向。其中主流的两类UDA方法分别基于最小化域间距离和基于生成式对抗网络GANs(GenerativeAdversarial Networks)。基于域间距离最小化的算法主要依赖于距离度量的选择，通过最小化域间距离来学习具有域不变性的特征，实现两个分布的对齐；基于生成式对抗网络的方法则一般通过域鉴别器或者孪生分类器与特征生成器间的博弈来学习具有良好迁移性的特征表示。但是上述方法大都主要关注于特征表示的可迁移性，而忽略了分类器在目标域上的确定性，进而会导致特征可鉴别性的缺失，大大限制了算法的性能。例如最大化分类器差异方法(Maximum Classifier Discrepancy，MCD，)中所使用的简单的距离度量L1(两个n维向量间距离的简单度量方式，可定义为对应维度差的绝对值之和)范数，仅仅考虑了孪生分类器输出预测对应位置上的差异，却没有考虑到预测的确定性问题。这样的话当最小化孪生分类器间的L1距离时，就可能会输出诸如[0.34,0.33,0.33]和[0.34,0.33,0.33]这样的预测，导致生成位于决策边界附近的具有迷惑性的特征，从而极大地损害算法的性能。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于北京理工大学，未经北京理工大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202110107883.6/2.html，转载请声明来源钻瓜专利网。

上一篇：一种以WebUI的方式构建App功能界面的方法
下一篇：一种EPE自动冲压机

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06K 数据识别；数据表示；记录载体；记录载体的处理
G06K9-00 用于阅读或识别印刷或书写字符或者用于识别图形，例如，指纹的方法或装置
G06K9-03 .错误的检测或校正，例如，用重复扫描图形的方法
G06K9-18 .应用具有附加代码标记或含有代码标记的打印字符的，例如，由不同形状的各个笔画组成的，而且每个笔画表示不同的代码值的字符
G06K9-20 .图像捕获
G06K9-36 .图像预处理，即无须判定关于图像的同一性而进行的图像信息处理
G06K9-60 .图像捕获和多种预处理作用的组合

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]面向跨领域复杂视觉任务的孪生分类器确定性最大化方法在审

专利文献下载