[发明专利]一种基于知识指导-战术感知的智能体学习方法有效

申请号：	201810444476.2	申请日：	2018-05-10
公开（公告）号：	CN108629422B	公开（公告）日：	2022-02-08
发明（设计）人：	李玺;胡玥;李钧涛	申请（专利权）人：	浙江大学
主分类号：	A63F13/67	分类号：	A63F13/67;A63F13/55;A63F13/822;G06N3/08;G06N3/04
代理公司：	杭州求是专利事务所有限公司 33200	代理人：	傅朝栋;张法高
地址：	310058 浙江***	国省代码：	浙江;33
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于知识指导战术感知智能学习方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种基于知识指导‑战术感知的智能体学习方法，用于在双方对战游戏的环境下，通过两个阶段的训练，利用人类的知识训练出一个以特定战术策略作战的智能体。具体包括如下步骤：1)对游戏画面和智能体的状态进行编码，构成状态特征；2)通过人为编写脚本的方式构建一个具有特定作战策略的脚本；3)智能体与脚本作战，收集对手的状态和动作数据进行第一阶段训练；4)训练后的智能体与电脑内置AI作战，通过强化学习的方式进行第二阶段训练；5)使用上述学习框架训练智能体以特定战术参与作战。本发明适用于微操环境下的双方作战模式的智能体训练，面对各种微操作战场景具有较好的胜率。

技术领域

本发明属于深度强化学习在游戏领域的应用，特别地涉及一种基于知识指导-战术感知的智能体学习方法。

背景技术

深度强化学习在很多地方都有应用，比较经典的有在围棋，雅达利小游戏上的应用。由于双方对战博弈游戏的复杂性和实时性，在征服了围棋这块领域之后，强化学习的研究学者们都转向对星际争霸之类的双方对战游戏智能体的研究。此类研究不仅能够强化对人工智能的研究，而且也具有较高的应用意义。因为智能体被构建后，可将其应用于游戏产业中，将智能体内置于游戏中，或者将其应用于竞技体育产业，用于初学者训练或者提供最佳作战策略等等。

典型地来说，智能体研究的问题主要有以下三个方面，(1)学习的架构建立；(2)模型的训练策略不同；(3)多代理的通讯机制。对于第一点，学习的架构来说，最近提出了很多很高效的强化学习研究框架，比如说是集中式评价分布式执行的框架和主从架构。对于第二点，模型的训练策略，有很多的研究工作都是为了设计一个离线/在线的训练策略，这样可以提高以代理为导向的学习表现，比如说训练收敛速度，稳定性等等。对于第三点，多代理的通讯机制主要研究一个代理之间的不同消息的传递机制。有的让每个动作网络在输出一个动作信息的同时也输出一个消息，同时这个消息作为下一个代理的评价网络的输入；也有工作是为每一个代理都构建一个模块，这个模块是用来传递消息的，接受上一轮模块发送的消息，分别接受平均之后的消息和未处理过的消息，通过平均消息的接受来促进代理之间的沟通等。

上述的方法都是基于数据驱动的方式，其缺点是探索最优策略所需的时间非常久。一般来说，为了在一个比较容易的场景上掌握游戏规则进行游戏，智能体需要经过几万场游戏的训练，这是非常耗时的。而且在探索的训练过程中，并不具有可解释性。整个模型是一个黑箱，不能事先知道即将学习到的策略大致是什么类型的。强化学习的算法，都是为了解决一个序列决策最优的问题。所以这个强化学习一直都会往回报最大的方向学习，这一点也会导致最后学习到的策略会很奇怪，事先研究人员不能分析得到这个策略会是怎么样的。而且，由于之前的方法都是纯粹的数据驱动，所以该方法训练的过程中，智能体都不会意识到对手的存在，这样缺少了对抗博弈游戏的本身的对抗信息。

发明内容

为解决上述问题，本发明的目的在于提供一种知识指导-战术感知的学习方法。该方法基于深度神经网络，利用人类的知识去学一个策略函数，让学习的过程更加可解释性。这个注入人类知识的想法是可以通过人为编写脚本实现，只要将智能体与这个脚本进行对战，并且向其学习。在经过一段时间的训练之后，智能体可以学习到对手的策略，之后就通过强化学习的方法，把上一个阶段学习到的策略进一步地加强，最后可以得到一个具有可解释性的策略。因为在训练之前，能大致分析得到即将要学习到的策略是怎么样的，而不是一味地让它自由探索得到的。同时，这个方法又可以缩短训练学习所需要的时间，有了一个初始化的模型之后，第二阶段的强化学习，也会很容易收敛并且学习到比较好的策略。而不是像之前的强化学习一样，充满随机性，每次训练的结果都不太一样。

为实现上述目的，本发明的技术方案为：

一种基于知识指导-战术感知的智能体学习方法，其包括以下步骤：

S1、对游戏画面和智能体的状态进行编码，构成状态特征；

S2、构建一个具有用于智能体学习的目标作战策略的脚本；

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于浙江大学，未经浙江大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201810444476.2/2.html，转载请声明来源钻瓜专利网。

上一篇：一种液态金属量子处理器
下一篇：信息提供系统、信息提供方法和记录介质

同类专利

专利分类

A 农业

A63 运动；游戏；娱乐活动
A63F 纸牌、棋盘或轮盘赌游戏；利用小型运动物体的室内游戏；其他类目不包含的游戏
A63F13-00 使用二维或多维电子显示器
A63F13-02 .附件
A63F13-08 .结构零件或布置，例如其他类目不包括的壳体、导线、连接件、操纵台
A63F13-10 .游戏过程的控制，例如开始、进行、结束
A63F13-12 .涉及若干游戏装置之间的相互作用，例如传送和分配系统
A63F13-04 ..用于命中显示器上的特殊区域，如具有光电探测装置的

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于知识指导-战术感知的智能体学习方法有效

专利文献下载