[发明专利]一种基于知识指导-战术感知的智能体学习方法有效

专利信息
申请号: 201810444476.2 申请日: 2018-05-10
公开(公告)号: CN108629422B 公开(公告)日: 2022-02-08
发明(设计)人: 李玺;胡玥;李钧涛 申请(专利权)人: 浙江大学
主分类号: A63F13/67 分类号: A63F13/67;A63F13/55;A63F13/822;G06N3/08;G06N3/04
代理公司: 杭州求是专利事务所有限公司 33200 代理人: 傅朝栋;张法高
地址: 310058 浙江*** 国省代码: 浙江;33
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 知识 指导 战术 感知 智能 学习方法
【权利要求书】:

1.一种基于知识指导-战术感知的智能体学习方法,其特征在于包括以下步骤:

S1、对游戏画面和智能体的状态进行编码,构成状态特征;

S2、构建一个具有用于智能体学习的目标作战策略的脚本;

S3、智能体与所述的脚本作战,收集对手的状态和动作数据进行第一阶段训练;

S4、训练后的智能体与电脑内置智能体作战,通过强化学习的方式进行第二阶段训练;

S5、通过作战-收集数据-训练-再作战的循环过程,不断训练智能体。

2.如权利要求1所述的一种基于知识指导-战术感知的智能体学习方法,其特征在于步骤S1中,所述的状态特征φ包括位置信息特征和血量信息特征,位置信息特征通过获取游戏画面中我方与敌方的位置信息进行编码;血量信息特征通过获取智能体的血量信息得到,并将其编码在与位置信息相对应的位置上;其中φ(s,a)为我方的状态特征,φ(s,e)为敌方的状态特征。

3.如权利要求1所述的一种基于知识指导-战术感知的智能体学习方法,其特征在于步骤S2中,所述的脚本中包含有期望智能体学习到的作战策略,脚本获取状态特征φ(s,e)后,会根据编写的作战策略做出符合这个状态的动作ue

4.如权利要求1所述的一种基于知识指导-战术感知的智能体学习方法,其特征在于所述的步骤S3包括以下子步骤:

S31、为智能体构建一个策略网络F(φ(s,a);θ1),该网络由三层卷积层和四层全连接层构成,网络参数θ1随机初始化;该网络输入是当前的状态特征φ(s,a),输出为动作空间中每个动作的概率,智能体选择概率最大的动作执行;

S32、智能体和人为编写的具有特定 作战策略的脚本进行对战,在对战过程中智能体收集敌方即脚本的状态特征φ(s,e)和脚本的动作ue,并将其作为一个元组(φ(s,e),ue)存在Replay D1中,直到一场对战结束;

S33、在Replay D1中随机采样预设批大小的数据(φ(s,e),ue)进行策略网络的训练,网络的损失函数为:

其中为期望函数,Ue是对脚本的动作ue进行one-hot编码处理后的结果,训练使得损失函数最小化,模型收敛后完成一次训练;

S34、重复S32-S33进行多场对战和训练,直到智能体学到脚本的特定策略。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201810444476.2/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top