[发明专利]具有中间信号的非固定延迟老虎机在审
申请号: | 202011336985.7 | 申请日: | 2020-11-25 |
公开(公告)号: | CN112836117A | 公开(公告)日: | 2021-05-25 |
发明(设计)人: | C.弗纳德;A.吉奥吉;T.A.曼恩 | 申请(专利权)人: | 渊慧科技有限公司 |
主分类号: | G06F16/9535 | 分类号: | G06F16/9535;G06N7/00;G06N20/00 |
代理公司: | 北京市柳沈律师事务所 11105 | 代理人: | 金玉洁 |
地址: | 英国*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 具有 中间 信号 固定 延迟 老虎机 | ||
1.一种从要在环境中执行的动作集合中选择动作的方法,所述方法包括,在多个时间步的序列中的每个时间步:
维护计数数据,所述计数数据:
(i)对于每个动作以及对于中间信号的离散集合中的每个中间信号,指定响应于所述动作被执行而已经观察到所述中间信号的次数的计数,以及
(ii)对于每个中间信号,指定对于其响应于在所述时间步执行的动作所述中间信号已经被观察到的时间步的已经接收到的奖励的计数,
其中,所述离散集合中的每个中间信号描述动作已经被执行之后但是已经接收到执行的动作的奖励之前所述环境的对应状态,并且
其中,每个奖励是度量响应于其而观察到所述中间信号的动作的质量的数值;
从所述计数数据中针对每个动作确定包括所述中间信号中的每一个的相应当前转移概率的相应当前转移概率分布,所述相应当前转移概率表示如果所述动作被执行则所述中间信号将被观察到的当前可能性的估计;
从所述计数数据中针对每个中间信号确定相应的奖励估计,所述相应的奖励估计是作为所述中间信号被观察到的结果将接收到的奖励的估计;
从所述相应当前转移概率分布和所述相应的奖励估计确定每个动作的相应动作得分;以及
基于所述相应动作得分来选择要在所述环境中执行的动作。
2.根据权利要求1所述的方法,其中,所述环境是内容项推荐设定,其中,所述动作对应于内容项,并且其中,在所述内容项推荐设定中向用户推荐对应于所选动作的内容项。
3.根据权利要求1所述的方法,其中,选择动作包括:
选择具有最高动作得分的动作。
4.根据权利要求1所述的方法,还包括:
接收响应于所选动作被执行而观察到中间信号的指示;以及
作为响应,更新所述计数数据。
5.根据权利要求1所述的方法,还包括:
接收作为在更早的时间步观察到的先前中间信号的结果的奖励;以及
作为响应,更新所述计数数据。
6.根据权利要求1所述的方法,其中,对于每个动作以及对于中间信号的离散集合中的每个中间信号,响应于所述动作被执行而已经观察到所述中间信号的次数的计数为:
对在包括固定数量的最新近时间步的最近时间窗期间响应于所述动作被执行而已经观察到所述中间信号的次数进行计数的窗口化计数。
7.根据权利要求6所述的方法,其中,从所述计数数据中针对每个动作确定包括所述中间信号中的每一个的相应当前转移概率的相应当前转移概率分布包括:
基于以下确定所述中间信号中的每一个的所述相应当前转移概率:(i)对在所述最近时间窗期间响应于所述动作被执行而已经观察到所述中间信号的次数进行计数的窗口化计数与(ii)对在所述最近时间窗期间所述动作已经被执行的次数进行计数的窗口化计数的比率。
8.根据权利要求1所述的方法,其中,对于每个中间信号,作为所述中间信号被观察到的结果而已经接收到的奖励的计数为:
对在更长时间窗期间响应于所述动作被执行而已经观察到所述中间信号的时间步接收的奖励进行计数的奖励计数,所述更长时间窗不包括所述最近时间窗中的一些或所有最新近时间步。
9.根据权利要求8所述的方法,其中,所述计数数据还指定:
对于每个中间信号,在所述更长时间窗期间已经观察到所述中间信号的次数的延迟计数,所述更长时间窗不包括所述最近时间窗中的一些或所有最新近时间步。
10.根据权利要求9所述的方法,其中,从所述计数数据中针对每个中间信号确定相应的奖励估计,所述相应的奖励估计是作为所述中间信号被观察到的结果将接收到的奖励的估计,包括:
基于以下确定所述相应的奖励估计:(i)所述中间信号的奖励计数与(ii)所述中间信号的延迟计数的比率。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于渊慧科技有限公司,未经渊慧科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011336985.7/1.html,转载请声明来源钻瓜专利网。
- 上一篇:用于机动车的电子部件的冷却组件
- 下一篇:用于调节时计桥的机构