[发明专利]时间差分模型的无监督学习技术有效
申请号: | 201780077592.9 | 申请日: | 2017-10-11 |
公开(公告)号: | CN110073369B | 公开(公告)日: | 2020-09-15 |
发明(设计)人: | B.A.西博尔德 | 申请(专利权)人: | 谷歌有限责任公司 |
主分类号: | G06N3/04 | 分类号: | G06N3/04;G06N3/08;G06K9/00 |
代理公司: | 北京市柳沈律师事务所 11105 | 代理人: | 金玉洁 |
地址: | 美国加利*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 时间差 模型 监督 学习 技术 | ||
各种示例性实现方式涉及时间差分模型的无监督训练。可以训练时间差分模型以接收至少第一状态表示和第二状态表示,其分别描述对象在两个不同时间的状态,并且作为响应,输出编码对象在两个不同时间之间的改变的时间差分表示。为了训练模型,时间差分模型可以与预测模型组合,该预测模型在给定时间差分表示和第一状态表示的情况下寻求预测或者重建第二状态表示。可以在损失值上训练时间差分模型,该损失值表示第二状态表示与第二状态表示的预测之间的差异。以这种方式,未标记的数据可以用于训练时间差分模型,以提供时间差分表示。本公开还提供了一旦训练后的这种时间差分模型的示例性用途。
技术领域
本公开总体上涉及机器学习。更具体地,本公开涉及用于时间差分模型的无监督学习技术。
背景技术
机器学习通常是指计算机科学的领域,其致力于使诸如计算机的机器能够在没有被明确编程的情况下学习。机器学习包含研究和构建机器执行的算法或技术,使机器能够从数据中学习和预测数据。特别地,这种算法可以通过从输入观察的训练集合而构建模型来操作,以便将数据驱动的预测或决策表示为输出,而不是严格地遵循静态编程指令。
机器学习技术的一个主要分支包含监督学习技术。监督学习可以包含从包含若干被标记的示例的训练数据集合推断或学习功能或模型。例如,训练数据集合中的每个示例可以包含一个或多个输入值(其可以表示为具有若干特征的矢量)和一个或多个期望的输出值(其也可以称为监督信号)。通常,使用提供输入值和输出值的已知事实真相(groundtruth)信息来标记受监督的训练数据。受监督的机器学习算法可以分析训练数据并产生推断的模型,然后可以将其用于对新的未标记的示例进行映射或预测。
然而,在许多场景中,被标记的数据和/或事实真相数据可能难以获得和/或获得成本高。例如,手动标记的数据可能需要人类来向大量训练示例确定并提供大量标记,这可能需要过多的时间和费用。另外,提供手动标记在概念上可能具有挑战性,因为(多个)人类标记者可能需要提前准确地同意哪些标记是可用的。即使假设对可用的标记的词汇表达成一致,标记者也可能不同意应用哪个标记或者如何或何时将标记应用于给定的训练示例。因此,在某些场景下执行监督学习可能是困难的和/或昂贵的(如果不是不可能的话)。
发明内容
本公开的实施例的方面和优点将部分地在以下描述中阐述,或者可以从说明书中得知,或者可以通过实践实施例来得知。
本公开的一个示例性方面涉及一种用于执行无监督机器学习的计算机系统。该计算机系统包含一个或多个处理器和储存指令的一个或多个非瞬态计算机可读介质。当由一个或多个处理器执行时,指令使得计算机系统将与第一时间相关联的第一状态表示和与不同于第一时间的第二时间相关联的第二状态表示输入到时间差分模型中。当由一个或多个处理器执行时,指令使得计算机系统接收时间差分表示作为时间差分模型的输出,该时间差分表示将第一状态表示与第二状态表示之间的改变进行编码。当由一个或多个处理器执行时,指令使得计算机系统将时间差分表示和与第一时间相关联的第一状态表示输入到预测模型中。当由一个或多个处理器执行时,指令使得计算机系统接收第二状态表示的预测作为预测模型的输出。当由一个或多个处理器执行时,指令使得计算机系统确定表示第二状态表示与第二状态表示的预测之间的差异的损失值。当由一个或多个处理器执行时,指令使得计算机系统至少部分地基于损失值来训练至少时间差分模型。
相应地,各种示例性实现方式允许对时间差分模型进行无监督训练。由于训练是无监督的,因此可以减少对生成被标记的训练数据或将被标记的训练数据输入到系统中的需求,或者在某些情况下根本不需要。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于谷歌有限责任公司,未经谷歌有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201780077592.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:用于认证插图的方法
- 下一篇:用于稀疏神经网络的低功率架构