[发明专利]一种多人信息非对称博弈游戏决策生成系统在审

申请号：	201810238739.4	申请日：	2018-03-22
公开（公告）号：	CN108446801A	公开（公告）日：	2018-08-24
发明（设计）人：	尹愚	申请（专利权）人：	成都大象分形智能科技有限公司
主分类号：	G06Q10/04	分类号：	G06Q10/04;G06Q10/06;G06N3/08
代理公司：	成都天嘉专利事务所(普通合伙) 51211	代理人：	苏丹
地址：	610000 四川省成都市***	国省代码：	四川;51
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	网络训练仿真模块博弈游戏多人信息分析模块判断模块生成系统业务特征非对称神经网络模型策略规则策略制定技术实现计算系统均衡问题模块信号人工干预输入模块问题状态行动模式映射网络计算量求解决策归纳学习发现
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明属于基于神经网络模型的计算系统技术领域，特别涉及一种多人信息非对称博弈游戏决策生成系统，包括业务特征分析模块、仿真模块、网络训练模块及策略预期判断模块，所述网络训练模块包括特征映射网络输入模块；所述业务特征分析模块与仿真模块信号相连，所述仿真模块与网络训练模块信号相连，所述网络训练模块与所述策略预期判断模块信号相连。与现有技术相比，本发明通过深度学习和增强学习技术实现对行动策略的自归纳，可解决以下问题：A.计算策略规则设计中人工干预要求高；B.问题状态空间大的情况下对计算量要求非常高；C.策略制定下的行动模式简单，容易被发现规律；D.本发明是目前代价最小的求解纳什均衡问题的方法。

技术领域

本发明属于基于神经网络模型的计算系统技术领域，特别涉及一种多人信息非对称博弈游戏决策生成系统。

背景技术

多人信息非对称博弈游戏的特点是博弈游戏中的每个参与者拥有的信息并不相同，且每个参与者可以拥有不同的策略、目标和奖励。现有技术中多人信息非对称博弈游戏的决策生成方案主要包括通过策略树遍历求解最优策略、依据胜率与赔率下回报情况进行概率决策与通过计算反事实后悔最小求解博弈策略。

然而，策略树遍历求解最优策略的方案需对所有可能的策略进行彻底或者有限的遍历，所需探索的状态空间可能极大，现有计算能力无法满足需求；概率决策求解方案是依据仿真结果或者历史经验，制作概率行动表，预期行为倾向于大概率发生事件，但该方案需要业务领域高级知识专家支持，主观性较大，无法对问题状态空间进行全面刻画，且概率表行动模式较为单一，容易被发现规律；计算反事实后悔最小的求解方案是对博弈论中的纳什均衡进行近似求解，其计算过程仍需进行对策略树的有限探索，计算量大，难以实时完成。

发明内容

为了克服现有技术的不足，本发明提供一种多人信息非对称博弈游戏决策生成系统，以通过深度学习实现信息非对称游戏策略的自动归纳，通过增强学习实现信息非对称游戏策略的自动演化，并通过人工神经网络技术大幅度减少游戏策略设计的人工干预。

为解决现有技术存在的问题，现特别提出一种多人信息非对称博弈游戏决策生成系统。

一种多人信息非对称博弈游戏决策生成系统，包括业务特征分析模块、仿真模块、网络训练模块及策略预期判断模块，所述网络训练模块包括特征映射网络输入模块；所述业务特征分析模块与仿真模块信号相连，所述仿真模块与网络训练模块信号相连，所述网络训练模块与所述策略预期判断模块信号相连。

所述策略预期判断模块与所述仿真模块信号相连。

该决策生成系统的决策生成步骤如下：

S1.业务特征分析模块根据游戏内容界定出业务内容，并根据业务内容定义待训练的输入数据结构和输出数据结构；

输入和输出的数据结构根据游戏内容界定，本领域技术人员根据游戏内容知晓其定义方法。

S2.仿真模块根据业务特征分析模块界定出的业务内容产生限制条件下的受限训练数据；

具体而言，受限训练数据是指用于训练网络的数据。

S3.网络训练模块中的特征映射网络输入模块对受限训练数据的数据结构进行变形和/或转换，网络训练模块继而使用变形和/或转换后的训练数据进行人工神经网络训练，直至达到该限制条件下的训练预期；

所述网络训练模块的主要作用是训练网络，特征映射网络输入模块用于在正式训练前涉及对训练数据的变形和/或转换。