[发明专利]具有中间信号的非固定延迟老虎机在审
申请号: | 202011336985.7 | 申请日: | 2020-11-25 |
公开(公告)号: | CN112836117A | 公开(公告)日: | 2021-05-25 |
发明(设计)人: | C.弗纳德;A.吉奥吉;T.A.曼恩 | 申请(专利权)人: | 渊慧科技有限公司 |
主分类号: | G06F16/9535 | 分类号: | G06F16/9535;G06N7/00;G06N20/00 |
代理公司: | 北京市柳沈律师事务所 11105 | 代理人: | 金玉洁 |
地址: | 英国*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 具有 中间 信号 固定 延迟 老虎机 | ||
从要在环境中执行的动作集合中选择动作的方法、系统和装置,包括编码在计算机存储介质上的计算机程序。方法之一包括,在每个时间步:维护计数数据;对于每个动作,确定相应当前转移概率分布,该相应当前转移概率分布包括中间信号中的每一个的相应当前转移概率,该当前转移概率表示如果该动作被执行则中间信号将被观察到的当前可能性的估计;对于每个中间信号,确定相应的奖励估计,该相应的奖励估计是作为观察到中间信号的结果将接收到的奖励的估计;从相应当前转移概率分布和相应的奖励估计确定每个动作的相应动作得分;以及基于相应动作得分来选择要执行的动作。
技术领域
本说明书涉及多臂老虎机(multi-armed bandit)。
背景技术
在多臂老虎机场景中,智能体(agent)从可能动作集合中迭代地选择要在环境中执行的动作。响应于每个动作,智能体接收度量所选动作的质量的奖励。智能体试图选择最大化响应于执行所选动作而接收的预期奖励的动作。
发明内容
本说明书描述了实施为在一个或多个位置的一个或多个计算机上的计算机程序的系统,该系统使用非固定延迟老虎机方案来选择要执行的动作。
可以实施本说明书中描述的主题的特定实施例,以便实现以下优点中的一个或多个。
在线推荐系统在接收反馈时经常面临长延迟,尤其是在针对一些长期指标进行优化时。具体地,当度量由推荐系统选择的动作的质量的奖励仅在动作已经被选择之后的许多时间步可用时,延迟发生。
虽然缓解学习中延迟的影响可以在固定环境中得到补偿,但当环境随时间而改变时,即,当响应于接收到任何给定动作而预期接收到的奖励的分布随时间而改变时,问题变得更具挑战性。
事实上,如果改变的时间尺度与接收奖励的延迟相当,则许多现有技术不可能了解环境,因为一旦接收到奖励,可用的观察已经过时。
本说明书中描述的技术通过利用在没有延迟或有相对于以其接收奖励的延迟来说小的延迟的情况下可用的中间信号解决了这些缺陷,并允许在具有延迟奖励的动态环境中进行有效的学习(从而进行有效的动作选择)。具体地,所描述的技术利用了这样一个事实,即给定那些信号,系统的长期行为是固定的或非常缓慢地改变。具体地,通过将动作选择问题分解成(i)估计响应于给定动作而接收任何给定中间信号的改变的概率和(ii)估计在接收到给定中间信号之后接收给定奖励的固定概率,即使在存在延迟奖励和非固定环境的情况下,系统也能够有效地选择动作。
本说明书中描述的主题的一个或多个实施例的细节在附图和以下描述中阐述。根据描述、附图和权利要求,本主题的其他特征、方面和优点将变得显而易见。
附图说明
图1A示出了示例老虎机系统。
图1B示出了具有中间信号和延迟奖励的环境的示例。
图2是用于在给定时间步选择动作的示例过程的流程图。
图3是用于计算动作的动作得分的另一示例过程的流程图。
具体实施方式
本说明书一般描述了重复地选择要在环境中执行的动作的系统。
每个动作是从预定的动作集合中选择的,并且系统试图最大化响应于所选动作而接收的奖励来选择动作。
通常,奖励是度量所选动作的质量的数值。在一些实施方式中,每个动作的奖励或为零或为一,而在其他实施方式中,每个奖励是从下限奖励值和上限奖励值之间的连续范围中抽取的值。
更具体地,针对任何给定动作而接收的奖励相对于该动作被选择(并且在环境中执行)的时间在时间上延迟。例如,奖励可以度量一些长期目标,这些长期目标只能或通常仅在动作被执行之后的相当长时间量才被满足。
然而,在动作被执行之后,可以从环境中观察到中间信号。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于渊慧科技有限公司,未经渊慧科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011336985.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:用于机动车的电子部件的冷却组件
- 下一篇:用于调节时计桥的机构