[发明专利]利用硬性注意力的准确且可解释的分类在审
申请号: | 202010419464.1 | 申请日: | 2020-05-18 |
公开(公告)号: | CN111680721A | 公开(公告)日: | 2020-09-18 |
发明(设计)人: | G.埃尔赛德;S.科恩布利思;Q.V.勒 | 申请(专利权)人: | 谷歌有限责任公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06N3/04;G06N3/08;G06N20/00 |
代理公司: | 北京市柳沈律师事务所 11105 | 代理人: | 金玉洁 |
地址: | 美国加利*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 利用 硬性 注意力 准确 可解释 分类 | ||
总体上,本公开针对新颖的机器学习分类模型,其利用硬性注意力操作以做出离散的注意力动作。本公开还提供了一种自我监督的预训练过程,该过程将模型初始化为具有更频繁奖励的状态。仅给定一组训练输入(例如图像)的真值分类标签,所提出的模型就能够学习离散注意力位置上的策略,该策略标识与分类相关的输入的某些部分(例如图像的块)。以这种方式,模型能够提供高精度的分类,同时还为决策提供了明确且可解释的基础。
相关申请的交叉引用
本申请要求于2019年5月16日提交的美国临时专利申请号62/848,945的优先权。美国临时专利申请号62/848,945的全部内容通过引用合并于此。
技术领域
本公开总体上涉及机器学习。更具体地,本公开涉及机器学习模型及其训练技术,其能够使用硬性注意力来生成针对输入(例如,图像)的分类,从而提高分类的可解释性。
背景技术
人工神经网络和其他机器学习模型在包括分类任务在内的许多不同任务上实现了最先进的性能。例如,卷积神经网络(CNN)在许多图像分类任务上都达到了最先进的性能。但是,由于诸如CNN的神经网络计算输入的非线性函数,因此难以解释其决策。
因此,尽管卷积神经网络(CNN)在许多计算机视觉任务上取得成功,但主要由于无法解释CNN预测,它们在某些关键应用中被缓慢部署。尤其是,CNN计算其输入的非常复杂的函数,这使得不清楚输入的哪些方面有助于预测。
尽管许多研究人员已经尝试设计用于解释CNN和其他机器学习模型决策的方法,但是尚不清楚这些阐释是否忠实地描述了其意图阐释的模型。此外,对立的机器学习研究表明,图像像素的微小变化会改变分类器决策,这突显了CNN分类器的直观性。
提供更可解释的决策的一类有趣的模型是“硬性”视觉注意力模型。这些模型通常依赖于控制器,该控制器选择输入的相关部分来做出决策,其通过设计提供了可解释性。这些模型受人类视觉的启发,其中中央凹和视觉系统仅在高分辨率处理视觉场景的有限部分,而自上而下的路径控制眼睛的运动以顺序采样视觉场景的显著部分。
尽管利用硬性注意力的模型在诸如MNIST之类的简单数据集上表现良好,但是将这些模型从小任务扩展到现实世界图像一直是具有挑战性的。此外,仅利用类别标签监督来训练硬性注意力模型是具有挑战性的。例如,在大型图像中,动作空间是高维的,并且奖励稀疏,这通常会导致优化过程失败。
发明内容
本公开的实施例的方面和优点将在以下描述中部分地阐述,或者可以从描述中获悉,或者可以通过对实施例的实践而获悉。
本公开的一个示例方面针对一种利用硬性注意力执行分类的计算机系统。该计算系统包括机器学习分类模型。机器学习分类模型包括表示模型,该表示模型被配置为接收和处理包括多个部分的输入,以分别为输入的多个部分生成多组特征。机器学习分类模型包括分类模型,该分类模型被配置为接收和处理多组特征,以针对输入的多个部分中的每一个生成相应的分类数据。机器学习分类模型包括注意力模型,该注意力模型被配置为接收和处理多组特征,以在一个或多个迭代中的每个处选择输入的多个部分中的被注意部分。在一个或多个迭代的每个处,机器学习分类模型被配置为输出相应的预测,该预测包括在这样迭代处由注意力模型选择的输入的被注意部分的相应分类数据。该计算系统包括一个或多个处理器以及存储指令的一个或多个非暂时性计算机可读介质,该指令在由一个或多个处理器执行时使计算机系统执行操作。该操作包括获得包括多个部分的输入。这些操作包括将输入输入到机器学习分类模型中。该操作包括在一个或多个迭代的每个处,接收相应的预测作为机器学习分类模型的输出。
本公开的其他方面针对各种系统、装置、非暂时性计算机可读介质、用户界面和电子设备。
参考以下描述和所附权利要求,将更好地理解本公开的各种实施例的这些和其他特征、方面和优点。并入本说明书中并构成本说明书的一部分的附图示出了本公开的示例实施例,并且与描述一起用于解释相关原理。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于谷歌有限责任公司,未经谷歌有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010419464.1/2.html,转载请声明来源钻瓜专利网。