[发明专利]数据处理方法和装置有效
申请号: | 201610838804.8 | 申请日: | 2016-09-21 |
公开(公告)号: | CN106445701B | 公开(公告)日: | 2018-01-09 |
发明(设计)人: | 李英杰;万乐;邓大付;殷俊;程序;杜家春 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G06F9/54 | 分类号: | G06F9/54 |
代理公司: | 北京康信知识产权代理有限责任公司11240 | 代理人: | 董文倩,褚敏 |
地址: | 518000 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 数据处理 方法 装置 | ||
技术领域
本发明涉及数据处理领域,具体而言,涉及一种数据处理方法和装置。
背景技术
目前,对回合制事件的数据处理规则相对简单,用于对事件执行的对象对事件拥有全局事件信息,并且轮流行动,对事件有较长的决策时间,事件行为立刻实行,通过反馈确定,例如,回合制事件为回合制游戏,其规则相对简单,游戏玩家拥有全局信息,轮流行动,有较长的决策时间,行为可以立刻实行,也可以反馈确定,例如,围棋。
而对实时事件的数据处理规则复杂,用于对事件执行的对象只有部分事件信息,同时行动,对事件的决策时间较短,事件行为需要时间执行并且具有一定的成功概率,因此,对实时事件的数据处理与对回合制事件的数据处理存在差异。
在回合制事件中,围棋智能程序阿尔法狗(AlphaGo)是利用深度学习训练策略网络和价值网络,并用蒙特卡洛树整合来实现高水平围棋走子的算法。图1是根据相关技术中的一种AlphaGo算法的决策网络和价值网络的结构示意图。如图1所示,AlphaGo算法采用深度学习训练策略网络和价值网络。人类专家侧(Human expert positions)通过分类(Classification)推出策略(Rollout Policy),将人类专家侧的策略网络(SL Network)通过策略算法(Policy Gradient)传输至人工智能侧(Self-play Positions)。在人工智能侧,通过人工智能侧的策略网络(RL Network)和价值网络(Value Network)进行训练,得到数据(Data),其中,人类专家一侧的策略网络和人工智能侧的策略网络为策略网络(Policy Network),策略网络和价值网络通过一定的算法公式进行训练,通过蒙地卡洛树搜索(Monte Carlo Tree Search,简称为MCTS)算法进行实现。
图2是根据相关技术中的一种蒙地卡洛树搜索算法的示意图。如图2所示,通过策略网络选择落子概率、对落子样本进行扩展、通过价值网络评估当前走子收益、反馈当前走子收益的结果,通过蒙地卡洛树搜索算法对策略网络选择的落子概率和价值网络评估的当前走子的收益进行整合仿真,并最终根据当前盘面选择最佳落子位置。
实时事件的数据处理复杂度远高于上述回合制事件的数据处理复杂度,由于回合制事件的数据处理和实时事件的数据处理存在较多的差异,使得AlphaGo的算法的两层网络的结合方式无法满足实时事件宏观决策需求满足,更无法满足微观操作层次,无法满足实时事件智能系统的需要,数据处理效率低。
针对上述的数据处理效率低的问题,目前尚未提出有效的解决方案。
发明内容
本发明实施例提供了一种数据处理方法和装置,以至少解决相关技术的数据处理效率低的技术问题。
根据本发明实施例的一个方面,提供了一种数据处理方法。该数据处理方法包括:获取游戏应用客户端执行事件的样本数据;对样本数据执行预处理,得到多层数据组合,其中,多层数据组合中的每层数据组合对应同一目标事件中的一种目标事件对象,多层数据组合中的不同层数据组合对应同一目标事件中不同的目标事件对象;按照预设处理算法对每层数据组合执行处理,得到每层数据组合的处理结果;对每层数据组合的处理结果进行整合处理,得到目标指令,其中,目标指令用于指示游戏应用客户端同时执行不同层数据组合对应的不同的目标事件对象。
根据本发明实施例的另一方面,还提供了一种数据处理装置。该数据处理装置包括:第一获取单元,用于获取游戏应用客户端执行事件的样本数据;第一处理单元,用于对样本数据执行预处理,得到多层数据组合,其中,多层数据组合中的每层数据组合对应同一目标事件中的一种目标事件对象,多层数据组合中的不同层数据组合对应同一目标事件中不同的目标事件对象,目标事件对象为在游戏应用客户端上待同时执行的事件对象;第二处理单元,用于按照预设处理算法对每层数据组合执行处理,得到每层数据组合的处理结果;第三处理单元,用于对每层数据组合的处理结果进行整合处理,得到目标指令,其中,目标指令用于指示游戏应用客户端同时执行不同层数据组合对应的不同的目标事件对象。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610838804.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种URL匹配方法及装置
- 下一篇:多系统通信方法及终端