[发明专利]确定执行设备的动作选择方针有效
申请号: | 201980028594.8 | 申请日: | 2019-12-12 |
公开(公告)号: | CN112997198B | 公开(公告)日: | 2022-07-15 |
发明(设计)人: | 李辉;宋乐 | 申请(专利权)人: | 支付宝(杭州)信息技术有限公司 |
主分类号: | G06N20/00 | 分类号: | G06N20/00;A63F13/67 |
代理公司: | 北京博思佳知识产权代理有限公司 11415 | 代理人: | 周嗣勇 |
地址: | 310000 浙江省杭州市*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 确定 执行 设备 动作 选择 方针 | ||
本文公开了用于生成动作选择方针以在环境中完成任务的方法、系统和装置,包括编码在计算机存储介质上的计算机程序。所述方法包括:基于采样方针和探索方针计算执行设备在一个状态下的混合采样方针,其中,所述探索方针指定与所述状态下的多个可能动作中的每个动作相对应的相应的探索概率,探索概率与所述状态下的多个可能动作中的每个动作已被采样的次数负相关;根据混合采样方针中指定的动作的采样概率,对所述状态下的多个可能动作中的一个动作进行采样;以及通过基于所述动作执行蒙特卡罗反事实遗憾最小化来更新在所述状态下的动作选择方针。
技术领域
本文涉及确定用于执行设备的动作选择方针,以在包括执行设备以及一个或多个其他设备的环境中完成任务。
背景技术
两个或更多个参与方之间的策略互动可以通过涉及两个或更多个参与方(也称为玩家)的博弈来建模和模拟。在涉及两个或更多个玩家的不完美信息博弈(IIG)中,玩家在做出决策之前只能部分获得对手的知识。这类似于现实场景,例如贸易、交通路线规划和公开拍卖。许多现实生活场景可以表示为IIG,例如不同公司之间的商业竞争、拍卖场景中的竞标关系以及欺诈方与反欺诈方之间的博弈关系。
由于信息隐藏,玩家必须在对对手的信息不确定的情况下做出决策,并且其还需要采取行动以利用对手对自己的信息不确定的优势。求解IIG 可能在计算上是昂贵且耗时的,特别是对于具有大量可能状态和供选择的可能动作的大型博弈。期望以有效方式求解IIG的技术。
发明内容
本主题的描述的实施例可以单独地或组合地包括一个或多个特征。
例如,在一个实施例中,一种执行设备的计算机实现的方法,用于生成动作选择方针,以在包括所述执行设备以及一个或多个其他设备的环境中完成任务,所述方法包括:基于采样方针和探索方针计算执行设备在一个状态下的混合采样方针,其中,所述状态对应于多个可能动作,当执行设备在所述状态下时,所述多个可能动作如果被执行设备执行,将导致相应的下一状态,其中,采样方针指定对所述状态下的多个可能动作中的每个动作进行采样的相应采样概率,其中,所述探索方针指定与所述状态下的多个可能动作中的每个动作相对应的相应的探索概率,其中,探索概率与所述状态下的多个可能动作中的每个动作已被采样的次数负相关;根据混合采样方针中指定的动作的采样概率,对所述状态下的多个可能动作中的一个动作进行采样;以及通过基于所述动作执行蒙特卡罗反事实遗憾最小化(MCCFR)来更新执行设备在所述状态下的动作选择方针,其中,所述动作选择方针指定从所述状态下的多个可能动作中选择一个动作的相应概率,用于在环境中完成任务。
在一些实施例中,可以使用系统、方法或计算机程序,或者系统、方法和计算机程序的任何组合来实现这些一般和特定方面。前述和其他描述的实施例可以各自包括以下一个或多个方面:
在一些实施例中,所述方法还包括:响应于确定满足收敛条件而基于动作选择方针来控制执行设备的操作。
在一些实施例中,所述方法还包括:响应于根据混合采样方针从所述状态下的多个可能动作中对所述动作进行采样,增加在所述状态下对所述动作进行采样的次数;以及降低与所述状态下的多个可能动作中的所述动作相对应的探索概率,用于计算下一次迭代中的混合采样方针。
在一些实施例中,基于所述动作执行蒙特卡洛反事实后悔最小化 (MCCFR)包括:基于动作的混合采样概率,计算采样的终点动作序列的概率,采样的终点动作序列包括动作和完成任务的终点状态;基于采样的终点动作序列的概率,计算动作的采样反事实值;基于动作的采样反事实值,计算动作的遗憾值;以及基于动作的遗憾值,更新执行设备在所述状态下的动作选择方针。
在一些实施例中,所述方法还包括:采样方针包括所述状态下的多个可能动作上的第一概率分布,以及探索方针包括所述状态下的多个可能动作上的第二概率分布。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于支付宝(杭州)信息技术有限公司,未经支付宝(杭州)信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201980028594.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:药物输送设备及其使用和制造方法
- 下一篇:应急灯