[发明专利]确定执行设备的动作选择方针在审
申请号: | 201980040187.9 | 申请日: | 2019-05-15 |
公开(公告)号: | CN112292698A | 公开(公告)日: | 2021-01-29 |
发明(设计)人: | 李辉;胡开亮;宋乐 | 申请(专利权)人: | 创新先进技术有限公司 |
主分类号: | G06N5/04 | 分类号: | G06N5/04 |
代理公司: | 北京博思佳知识产权代理有限公司 11415 | 代理人: | 周嗣勇 |
地址: | 开曼群岛大开曼岛*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 确定 执行 设备 动作 选择 方针 | ||
本申请公开了用于产生动作选择方针的执行设备的方法、系统和装置,用于在包括执行设备以及一个或多个其他设备的环境中完成任务。一种方法包括:在当前迭代中,识别在前一次迭代中执行设备在状态下的动作的迭代动作选择方针;基于在前一次迭代中的迭代动作选择方针计算在前一次迭代中的遗憾值;基于在前一次迭代中的遗憾值,而不是在前一次迭代之前的任何迭代中的任何遗憾值,计算在当前迭代中的增量动作选择方针;基于在前一次迭代中的迭代动作选择方针和在当前迭代中的增量动作选择方针计算在当前迭代中的迭代动作选择方针。
技术领域
本文涉及确定执行设备的动作选择方针,以在包括执行设备以及一个或多个其他设备的环境中完成任务。
背景技术
求解IIG的方法具有很大的经济和社会效益。由于信息隐藏,因此玩家必须在对其对手信息不确定的情况下进行推理,并且玩家还需要采取行动以利用其对手对其自己的信息的不确定的优势。
两个或更多个参与方之间的策略交互可以通过涉及两个或更多个参与方(也称为玩家)的博弈来建模。在涉及两个或更多个玩家的不完美信息博弈(imperfectinformation games,IIG)中,玩家在做出决策之前只能部分地了解其对手。这类似于现实场景,例如贸易、交通路线规划和公开拍卖。许多现实生活场景可以表示为IIG,例如不同公司之间的商业竞争、拍卖场景中的竞标关系、欺诈方和反欺诈方之间的博弈关系。
发明内容
本文描述了用于确定执行设备的动作选择方针的技术,以在包括执行设备以及一个或多个其他设备的环境中完成任务,例如,在执行设备与一个或多个其他设备之间进行策略交互。例如,执行设备可以执行一种计算机实现的用于寻求执行设备与一个或多个其他设备之间的博弈的纳什均衡(Nash equilibrium)的方法。在一些实施例中,这些技术可以包括执行用于求解不完美信息博弈(IIG)的流式反事实遗憾最小化(CFR)算法,其可以节省存储空间,降低计算复杂性和方差,同时提高CFR算法的收敛速度。
本文还描述了耦接到一个或多个处理器并且其上存储有指令的一个或多个非暂态计算机可读存储介质,当所述指令由所述一个或多个处理器执行时,所述指令将促使所述一个或多个处理器按照本文提供的方法的实施例执行操作。
本文还描述了用于实现本文所述的方法的系统。该系统包括一个或多个处理器以及耦接到所述一个或多个处理器并且其上存储有指令的计算机可读存储介质,当所述指令由所述一个或多个处理器执行时,所述指令将促使所述一个或多个处理器按照本文提供的方法的实施例执行操作。
根据本文所述的方法、系统和计算机介质可以包括本文描述的各个方面和特征的任何组合。也就是说,根据本文所述的方法不限于本文具体描述的各个方面和特征的组合,而是还包括所描述的各个方面和特征的任何组合。
在附图和以下描述中阐述了本公开的一个或多个实现例的细节。根据说明书和附图以及权利要求,本文的其他特征和优点将显现。
附图说明
图1是示出根据本文的实施例的单牌扑克(one-card poker)中的部分博弈树的示例的图示。
图2A是示出原始CFR和流式CFR的工作流的示例的图示,图2B示出根据本文的实施例的流式CFR的工作流的示例。
图3是根据本文的实施例的流式CFR算法的示例的伪代码。
图4是根据本文的实施例的用于执行流式CFR以确定软件应用的动作选择方针的的处理的示例的流程图。
图5描绘了示出根据本文的实施例的计算机实现的用于提供与所述算法、方法、功能、处理、流程和进程相关联的计算功能的系统的示例的框图。
图6是根据本文的实施例的装置的模块的示例的图示。
不同的附图中相同的附图标记和名称表示相同的元件。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于创新先进技术有限公司,未经创新先进技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201980040187.9/2.html,转载请声明来源钻瓜专利网。