[发明专利]用于分布外检测的似然比在审
申请号: | 202080047730.0 | 申请日: | 2020-05-26 |
公开(公告)号: | CN114127747A | 公开(公告)日: | 2022-03-01 |
发明(设计)人: | 任洁;乔舒亚·文森特·迪隆;彼得·俊腾·刘;埃米莉·阿曼达·费尔蒂格;巴拉吉·拉克什米纳拉亚南;罗兰德·贾斯珀·斯诺埃克;瑞安·波普兰;马克·安德鲁·德普里斯托 | 申请(专利权)人: | 谷歌有限责任公司 |
主分类号: | G06N3/08 | 分类号: | G06N3/08;G06N3/04;G06N7/00 |
代理公司: | 中原信达知识产权代理有限责任公司 11219 | 代理人: | 邓聪惠;周亚荣 |
地址: | 美国加利*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 分布 检测 | ||
本公开涉及用于执行对分布外(OOD)输入的改进检测的系统和方法。特别地,用于OOD检测的当前基于深度生成模型的方法显著地受到与分布内示例相关的语义内容负面影响并且难以从与分布内示例相关的语义内容中区分种群水平背景统计。事实上,甚至已经在实验中观察到这种方法以向OOD输入指配更高的似然度,而这与所期望的行为相反。为了解决此问题,本公开提出了一种用于深度生成模型的似然比方法,该方法有效地校正这些混杂背景统计。
相关申请
本申请要求于2019年6月5日提交的美国临时专利申请号62/857,774的优先权和权益。美国临时专利申请号62/857,774在此通过引用整体地并入本文。
技术领域
本公开通常涉及机器学习。更具体地,本公开涉及用于对分布外输入的改进检测的系统和方法。术语“分布内(in-distribution)”用于描述来自某个数据分布的样本的数据集。该分布可以与多个“分布内类”相关联,这些“分布内类”描述可能的分布内数据集的空间的相应部分。相比之下,术语“分布外”(out-of-distribution,ODD)是指不是来自分布的样本的数据集。该分布可以例如是已用于训练机器学习系统的训练示例的分布。数据集可以是通过对真实世界尤其是真实世界中的物理、生物、医学或化学物体或事件的观察结果和/或测量结果所获得的数据集。例如,它们可以是对在真实世界中观察到的核酸序列进行编码的数据集和/或对由一个或多个传感器(例如包括视频摄像头和/或麦克风的相机)捕获的传感器数据(例如图像或声音)进行编码的数据集。
背景技术
对于许多机器学习系统,能够检测异常的或与训练中使用的数据明显不同的数据对维持安全且可靠的预测可能至关重要。这对于已表明以高置信度错误地将OOD输入分类成分布内类的深度神经网络分类器来说特别重要。这种行为在预测通知诸如医学诊断的真实世界决策时可能具有严重后果,例如,错误地将健康样本分类为致病样本或者反之亦然可能具有极高成本。因此,处理OOD输入(也称为分布转移)的重要性,已被认为是AI安全性的一个重要问题。
其中OOD检测是重要的一个示例子问题是细菌识别和许多其他类型的医学诊断的子问题。例如,对诸如败血症的传染病的诊断和治疗依赖于对血液中细菌感染的准确检测。已开发了若干机器学习方法通过对已知基因组序列进行分类来执行细菌识别,包括最新型的深度学习方法。
然而,即使神经网络分类器实现了如通过交叉证实所测量的高准确性,部署它们也是有挑战性的,因为真实数据高度可能的包含来自训练数据中不存在的未见类的基因组。特别地,多年来持续逐渐地发现不同的细菌类,并且据估计60%-80%的基因组序列属于尚不为人知的细菌。因此,在现有细菌类上训练分类器并部署它可能导致OOD输入被以高置信度错误地分类为来自训练数据中的类之一。另外,OOD输入还可以是来自诸如人类、植物、真菌等的细菌宿主基因组的污染,这些也需要被检测并从预测中排除。因此,具有用于准确地检测OOD输入的方法对使得能够将机器学习方法实际应用于此重要问题至关重要。除了此示例子问题之外,上述动态和挑战可推广到许多不同的场景/问题,包括可以存在OOD输入并且对此类OOD输入的错误分类会有问题的任何场景。
在当前技术水平下,一种用于检测OOD输入的流行策略是在训练数据上训练生成模型并且在测试时间使用该生成模型来检测OOD输入。然而,最近的研究已表明,在图像数据集上训练的深度生成模型能够向OOD输入指配更高的似然度(也就是说,深度生成模型可以使用比深度生成模型指配给分布内输入更高的似然度错误地将OOD输入分类为在分布内类之一中)。因此,这些现有方法在一些场景中可能提供明显错误且不可靠的结果。
发明内容
本公开的实施例的各方面和优点将在以下描述中部分地阐述,或者能够从说明书中学习,或者能够通过实施例的实践来学习。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于谷歌有限责任公司,未经谷歌有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202080047730.0/2.html,转载请声明来源钻瓜专利网。