[发明专利]在多方策略互动中进行策略搜索在审
申请号: | 201980034794.4 | 申请日: | 2019-01-17 |
公开(公告)号: | CN112292701A | 公开(公告)日: | 2021-01-29 |
发明(设计)人: | 李辉;胡开亮;宋乐 | 申请(专利权)人: | 创新先进技术有限公司 |
主分类号: | G06Q10/06 | 分类号: | G06Q10/06 |
代理公司: | 北京博思佳知识产权代理有限公司 11415 | 代理人: | 周嗣勇 |
地址: | 开曼群岛大开曼岛*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 多方 策略 互动 进行 搜索 | ||
本文公开的方法、系统和装置,包括在计算机存储介质上编码的计算机程序,用于进行反事实遗憾最小化(CRF)以在两方或多方之间的策略互动中进行策略搜索。所述方法之一包括:将多个遗憾样本存储在第一数据存储器中,其中,所述多个遗憾样本是在两方或更多方之间的策略互动中进行策略搜索时、通过CRF算法的两次或更多次迭代获得;将多个策略样本存储在第二数据存储设备中;基于第一数据存储设备中的多个遗憾样本,更新用于预测本方在状态下的可能动作的遗憾值的第一神经网络的参数;基于第二数据存储器中的多个策略样本,更新用于预测本方在状态下的可能行动的策略值的第二神经网络的参数。
技术领域
本文涉及在两方或更多方之间的策略互动中进行策略搜索。
背景技术
两方或更多方之间的策略互动可以通过涉及两方或更多方(也称为玩家)的博弈来建模。在涉及两个或更多个玩家的不完美信息博弈(imperfect information games,IIG)中,玩家在做出决策之前只能部分地了解其对手。这类似于现实场景,例如贸易、交通路线规划和公开拍卖。许多现实生活场景可以表示为IIG,例如不同公司之间的商业竞争、拍卖场景中的竞标关系、欺诈方和反欺诈方之间的博弈关系。
求解IIG的方法具有很大的经济和社会效益。由于信息隐藏,因此玩家必须在对其对手信息不确定的情况下进行推理,并且玩家还需要采取行动以利用其对手对其自己的信息的不确定的优势。
发明内容
本文的实施方式包括计算机实现的用于在多方策略互动中进行策略搜索的方法。更具体地,本文描述了用于在求解不完美信息博弈(IIG)时执行反事实遗憾最小化(CRF)算法的采样方案的示例,该方法可以降低计算的复杂度和方差同时提高CRF算法的收敛速度。本文还描述了用神经网络执行反事实遗憾最小化(CRF)的技术,由于神经网络的泛化能力,它可以节省存储空间并提供更快的收敛。
本文中描述的在特定实施例中实现的主题实现了以下技术效果和优势中的一个或多个。在一些实施例中,所描述的采样技术可以以更有效的方式帮助寻找例如资源分配、产品/服务推荐、网络攻击预测和/或预防、交通路线规划、欺诈管理等的现实场景的更好策略,这些现实场景可被建模或表示为多方策略互动、例如涉及两方或更多方的IIG。在一些实施例中,所描述的技术可以提高反事实遗憾最小化(CRF)算法在寻找由IIG建模的现实场景的最佳策略时的计算效率并降低计算负荷。在一些实施例中,所描述的采样技术可以提供比结果采样更低的方差,同时比外部采样具有更高的存储效率。在一些实施例中,所描述的技术可以提高CRF算法在寻找纳什(Nash)均衡以求解代表一个或多个现实场景的博弈时的收敛速度。在一些实施例中,所描述的技术提供表示IIG的博弈树的更平衡和全面的信息,使得CRF算法可以具有更小的方差和更快的收敛速度。在一些实施例中,所描述的技术通过使用神经网络结合CRF算法,节省了存储空间并提供了更快的收敛。在一些实施例中,所描述的技术可以仅需要少量存储空间用于CRF算法的每次迭代。
本文还提供了耦接一个或多个处理器并且其上存储有指令的一个或多个非暂时性计算机可读存储介质,所述指令当由所述一个或多个处理器执行时,促使所述一个或多个处理器按照本文提供的方法的实施例执行操作。
本文还提供了用于实施本文提供的所述方法的系统。所述系统包括一个或多个处理器以及耦接到所述一个或多个处理器并且其上存储有指令的计算机可读存储介质,所述指令当由所述一个或多个处理器执行时,促使所述一个或多个处理器按照本文提供的方法的实施例执行操作。
应了解,依据本文的方法可以包括本文描述的方面和特征的任意组合。也就是说,根据本文的方法不限于本文具体描述的方面和特征的组合,还包括所提供的方面和特征的任意组合。
以下在附图和描述中阐述了本文的一个或多个实施例的细节。根据说明书和附图以及权利要求,本文的其他特征和优点将显现。
附图说明
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于创新先进技术有限公司,未经创新先进技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201980034794.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:制造铸件的方法
- 下一篇:甘露糖靶向的纳米制剂及其制备和应用
- 同类专利
- 专利分类
G06Q 专门适用于行政、商业、金融、管理、监督或预测目的的数据处理系统或方法;其他类目不包含的专门适用于行政、商业、金融、管理、监督或预测目的的处理系统或方法
G06Q10-00 行政;管理
G06Q10-02 .预定,例如用于门票、服务或事件的
G06Q10-04 .预测或优化,例如线性规划、“旅行商问题”或“下料问题”
G06Q10-06 .资源、工作流、人员或项目管理,例如组织、规划、调度或分配时间、人员或机器资源;企业规划;组织模型
G06Q10-08 .物流,例如仓储、装货、配送或运输;存货或库存管理,例如订货、采购或平衡订单
G06Q10-10 .办公自动化,例如电子邮件或群件的计算机辅助管理