[发明专利]基于游戏树搜索算法的决策模型数据处理方法及系统在审
申请号: | 202110369855.1 | 申请日: | 2021-04-07 |
公开(公告)号: | CN112765242A | 公开(公告)日: | 2021-05-07 |
发明(设计)人: | 王嘉旸;雷捷维;李一华;任航;黄伟;熊唤亮;王命延 | 申请(专利权)人: | 中至江西智能技术有限公司 |
主分类号: | G06F16/2458 | 分类号: | G06F16/2458 |
代理公司: | 北京清亦华知识产权代理事务所(普通合伙) 11201 | 代理人: | 何世磊 |
地址: | 330100 江西省南*** | 国省代码: | 江西;36 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 游戏 搜索 算法 决策 模型 数据处理 方法 系统 | ||
本发明公开了一种基于游戏树搜索算法的决策模型数据处理方法及系统,该方法包括:在游戏树搜索算法的剪枝策略的设计过程中,利用双深度Q学习算法模型预估在当前出牌决策中出每张牌对应的分数,选择预估得分大于或等于分数阈值的出牌动作来扩展游戏树;在游戏树搜索算法的估值函数的设计过程中,若游戏树搜索算法能够在限定时间内搜索到游戏终局,则将估值函数设置为游戏终局能够获取到的游戏得分,若游戏树搜索算法不能在限定时间内搜索到游戏终局,则利用双深度Q学习算法模型计算当前游戏节点的每个动作的预估分数,并将预估分数的最大值作为估值函数的值。本发明能够在没有大量高质量玩家数据的情况下,构建高水平的智能决策系统。
技术领域
本发明涉及计算机数据处理技术领域,特别是涉及一种基于游戏树搜索算法的决策模型数据处理方法及系统。
背景技术
对决策模型中涉及的数据进行数据处理是构建决策模型的前提,以麻将为例,麻将决策模型是先在当前麻将游戏中获取一些数据信息(包括手牌、副露、对手的副露、弃牌、庄家位置等),通过对这些数据信息进行一定的处理,进行合理的决策动作,从而追求在麻将游戏中赢取更多的分数。在麻将游戏中,决策主要包括出牌决策与吃碰杠决策。
目前关于智能麻将决策模型的构建主要是应用了游戏树搜索算法(ExpectimaxSearch)来实现。在2008年,T.Lin根据在每轮决策中结合运用Expectimax Search算法与动态规划设计了麻将程序LongCat。该程序通过在搜索的过程追求向听数的减少,以此获得较高的胜率。在2015年,相关技术人员提出了“转张”的概念来改进以前的LongCat程序,以此来追求更高的胜率。但是在麻将游戏的对局中,追求更高的得分比更高的胜率显得更重要,然而目前基于Expectimax Search算法的模型都没有很好地解决这一问题。除此之外,目前Expectimax Search算法的剪枝策略和估值函数都要依赖于人工先验知识进行设计,这难免会引入设计者自身理解的偏差。
此外,日本东京大学Naoki Mizukami and Yoshimasa Tsuruoka团队在2006~2016年,基于日本麻将规则,成功开发了日麻AI“爆打”,应用在日本天凤麻将平台。该技术方案使用的是传统的机器学习算法,通过收集人类在麻将中对打的大量数据,来训练麻将智能决策模型。这种方法的实现需要大量专业玩家的高水平对战数据,对于刚上线、用户量不多的游戏平台则无能为力。
发明内容
为此,本发明的一个目的在于提出一种基于游戏树搜索算法的决策模型数据处理方法,以在没有大量高质量玩家数据的情况下,构建高水平的智能决策系统。
本发明提供一种基于游戏树搜索算法的决策模型数据处理方法,包括:
在游戏树搜索算法的剪枝策略的设计过程中,利用双深度Q学习算法模型预估在当前出牌决策中出每张牌对应的分数,选择预估得分大于或等于分数阈值的出牌动作来扩展游戏树,以得到对游戏树进行剪枝的结果;
在游戏树搜索算法的估值函数的设计过程中,若游戏树搜索算法能够在限定时间内搜索到游戏终局,则将估值函数设置为游戏终局能够获取到的游戏得分,若游戏树搜索算法不能在限定时间内搜索到游戏终局,则利用双深度Q学习算法模型计算当前游戏节点的每个动作的预估分数,并将预估分数的最大值作为估值函数的值。
根据本发明提供的基于游戏树搜索算法的决策模型数据处理方法,结合了双深度Q学习算法(Double Deep Q Network,简称Double DQN)与游戏树搜索算法,利用DoubleDQN弥补了Expectimax Search算法在剪枝策略设计、估值函数设计的不足,能够在没有大量高质量玩家数据的情况下,构建高水平的智能决策系统,与现有技术相比,本发明具有以下有益效果:
1、本发明不需要大量的高水平玩家用户数据进行训练,具有更好的普适性以及更高的商业价值,由于在实际商业运用的过程中,很多游戏公司需要在刚上线的游戏内配置高水平的AI,但是由于没有积累足够多的用户数据,所以很难利用监督学习方法构建AI,相比之下,本发明可以解决这种问题,更好的普适性。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中至江西智能技术有限公司,未经中至江西智能技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110369855.1/2.html,转载请声明来源钻瓜专利网。