[发明专利]在线部分奖励学习在审
申请号: | 202010882587.9 | 申请日: | 2020-08-28 |
公开(公告)号: | CN112446498A | 公开(公告)日: | 2021-03-05 |
发明(设计)人: | S·乌帕迪亚;M·尤罗奇金;M·阿加瓦尔;D·布尼福;Y·哈扎尼 | 申请(专利权)人: | 国际商业机器公司 |
主分类号: | G06N20/00 | 分类号: | G06N20/00;G06N3/04;G06N3/08 |
代理公司: | 北京市中咨律师事务所 11247 | 代理人: | 李永敏;于静 |
地址: | 美国*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 在线 部分 奖励 学习 | ||
本申请涉及在线部分奖励学习。经由在线部分奖励机器学习来获得表征待分析的系统的特征向量。基于所述特征向量,使用在线策略经由所述机器学习做出决策。针对环境反馈来观察系统。在至少第一实例中,其中,所述观察指示所述环境反馈是可获得的,则获得所述环境反馈。在至少第二实例中,其中,所述观察指示所述环境反馈是缺失的,则经由在线插补方法来插补所述环境反馈。所述在线策略基于所获得的环境反馈和所述在线插补方法的结果来更新。决策基于所述更新的在线策略来输出。
技术领域
本发明涉及电气、电子和计算机领域,并且更特别地,涉及机器学习和人机对话。
背景技术
在许多机器学习问题中,数据随时间自然收集并且系统被要求在其被允许观察来自环境的任何响应之前做出预测(采取动作)。时常地,没有可获得的响应,例如标签缺失和/或环境对系统的动作不作响应。此外,在许多实际系统中,人们可能仅希望观察指示给定动作是“好”还是“坏”(1或0奖励)的反馈;后者的情况模糊了用于学习的真实标签。
发明内容
本发明的原理提供了用于在线部分奖励学习的技术。在一方面中,一种示例性方法包括以下步骤:经由在线部分奖励机器学习来获得表征待分析的系统的特征向量;基于所述特征向量,使用在线策略经由所述机器学习做出决策;针对环境反馈来观察系统;在至少第一实例中,其中,所述观察指示所述环境反馈是可获得的,则获得所述环境反馈;在至少第二实例中,其中,所述观察指示所述环境反馈是缺失的,则经由在线插补方法插补所述环境反馈;基于所获得的环境反馈和所述在线插补方法的结果来更新所述在线策略;以及基于所述更新的在线策略来输出决策。
如本文所使用的,“促进”动作包括:执行动作,使动作更容易,帮助执行动作,或者使得动作被执行。因此,以示例而非限制的方式,在一个处理器上执行的指令可通过发送使得或者帮助动作被执行的适当的数据或者命令促进由在远程处理器上执行的指令执行的动作。为免生疑问,在行动者促进由除执行动作之外的动作的情况下,动作然而由某个实体或实体的组合执行。
本发明的一个或多个实施例或其元素可以以计算机程序产品的形式实现,该计算机程序产品包括具有用于执行所指示的方法步骤的计算机可用程序代码的计算机可读存储介质。此外,本发明的一个或多个实施例或其元素可以以系统(或装置)的形式实现,包括存储器,以及耦接到存储器并且可操作以执行示例性方法步骤的至少一个处理器。更进一步地,在另一方面中,本发明的一个或多个实施例或其元素可以以用于执行本文所描述的方法步骤中的一个或多个方法步骤的装置的形式实现:该装置可包括:(i)(多个)硬件模块;(ii)存储在计算机可读存储介质(或多个这种介质)中并且实现在硬件处理器上的(多个)软件模块;或(iii)(i)和(ii)的组合;(i)-(iii)中的任一个实现本文阐述的特定技术。
本发明的技术可提供实质上有益的技术效果。例如,一个或多个实施例提供以下各项中的一项或多项:
增强的准确度,包括例如改进奖励和/或减少后悔;
针对与现有技术相比较相同数量的样本的增强的学习,因此,期望的准确度水平可以利用更少的样本实现,因此,在至少一些实施例中,减少CPU时间以实现期望的准确度,从而改进实现机器学习的计算机的计算机性能;
使用根据本发明的各方面的多GCN嵌入式置信上限(GCNUCB)嵌入减少了上下文的维度,使能比LINUCB(线性置信上限)(现有方法/现有技术)更快的矩阵求逆,从而减少计算时间并且改进实现机器学习的计算机的计算机性能;
针对GCNUCB中的每个GCN(GCN=图卷积网络)使用GPU允许并行计算,减少计算时间并且改进实现机器学习的计算机的计算机性能。
本发明的这些和其他特征和优点将从将结合附图阅读的其说明性实施例的以下详细描述变得明显。
附图说明
图1描绘了根据本发明的实施例的云计算环境;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国际商业机器公司,未经国际商业机器公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010882587.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:多功能纸巾卷保持器
- 下一篇:基于系统特性执行刷新操作