[发明专利]一种基于知识指导-战术感知的智能体学习方法有效
申请号: | 201810444476.2 | 申请日: | 2018-05-10 |
公开(公告)号: | CN108629422B | 公开(公告)日: | 2022-02-08 |
发明(设计)人: | 李玺;胡玥;李钧涛 | 申请(专利权)人: | 浙江大学 |
主分类号: | A63F13/67 | 分类号: | A63F13/67;A63F13/55;A63F13/822;G06N3/08;G06N3/04 |
代理公司: | 杭州求是专利事务所有限公司 33200 | 代理人: | 傅朝栋;张法高 |
地址: | 310058 浙江*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 知识 指导 战术 感知 智能 学习方法 | ||
1.一种基于知识指导-战术感知的智能体学习方法,其特征在于包括以下步骤:
S1、对游戏画面和智能体的状态进行编码,构成状态特征;
S2、构建一个具有用于智能体学习的目标作战策略的脚本;
S3、智能体与所述的脚本作战,收集对手的状态和动作数据进行第一阶段训练;
S4、训练后的智能体与电脑内置智能体作战,通过强化学习的方式进行第二阶段训练;
S5、通过作战-收集数据-训练-再作战的循环过程,不断训练智能体。
2.如权利要求1所述的一种基于知识指导-战术感知的智能体学习方法,其特征在于步骤S1中,所述的状态特征φ包括位置信息特征和血量信息特征,位置信息特征通过获取游戏画面中我方与敌方的位置信息进行编码;血量信息特征通过获取智能体的血量信息得到,并将其编码在与位置信息相对应的位置上;其中φ(s,a)为我方的状态特征,φ(s,e)为敌方的状态特征。
3.如权利要求1所述的一种基于知识指导-战术感知的智能体学习方法,其特征在于步骤S2中,所述的脚本中包含有期望智能体学习到的作战策略,脚本获取状态特征φ(s,e)后,会根据编写的作战策略做出符合这个状态的动作ue。
4.如权利要求1所述的一种基于知识指导-战术感知的智能体学习方法,其特征在于所述的步骤S3包括以下子步骤:
S31、为智能体构建一个策略网络F(φ(s,a);θ1),该网络由三层卷积层和四层全连接层构成,网络参数θ1随机初始化;该网络输入是当前的状态特征φ(s,a),输出为动作空间中每个动作的概率,智能体选择概率最大的动作执行;
S32、智能体和人为编写的具有特定 作战策略的脚本进行对战,在对战过程中智能体收集敌方即脚本的状态特征φ(s,e)和脚本的动作ue,并将其作为一个元组(φ(s,e),ue)存在Replay D1中,直到一场对战结束;
S33、在Replay D1中随机采样预设批大小的数据(φ(s,e),ue)进行策略网络的训练,网络的损失函数为:
其中为期望函数,Ue是对脚本的动作ue进行one-hot编码处理后的结果,训练使得损失函数最小化,模型收敛后完成一次训练;
S34、重复S32-S33进行多场对战和训练,直到智能体学到脚本的特定策略。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810444476.2/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种液态金属量子处理器
- 下一篇:信息提供系统、信息提供方法和记录介质