[发明专利]一种基于深度强化学习的非完备信息博弈方法、装置、系统及存储介质有效
申请号: | 201910676439.9 | 申请日: | 2019-07-25 |
公开(公告)号: | CN110399920B | 公开(公告)日: | 2021-07-27 |
发明(设计)人: | 王轩;漆舒汉;蒋琳;曹睿;李明豪;廖清;李化乐;张加佳;刘洋;夏文 | 申请(专利权)人: | 哈尔滨工业大学(深圳) |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 深圳市添源知识产权代理事务所(普通合伙) 44451 | 代理人: | 黎健任 |
地址: | 518000 广东省深圳市南*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 深度 强化 学习 完备 信息 博弈 方法 装置 系统 存储 介质 | ||
1.一种基于深度强化学习的非完备信息博弈方法,其特征在于,包括如下步骤:
使用探索利用机制改进策略梯度算法的步骤:为了控制智能体使其在每个回合的前期和后期阶段利用已经更新计算的策略,在回合的中段使用探索的策略,使用m和n两个参数对切换策略的时机做出了限制,更新方式为m=G×L,n=R×G×(L-m),其中L是根据历史经验计算的每个回合智能体平均采取的动作次数,并随着训练的进行不断更新,G是随机数,R是超参数,G和R的作用是限制智能体探索行为的数量,并保证探索行为发生在每回合的中段部分;
深度强化学习网络中加入记忆单元的步骤:在深度强化学习神经网络添加记忆单元,从而帮助智能体在考虑当前状态时,综合考虑记忆单元记录的历史信息,做出更合理的决策;
自我驱动机制对奖励值进行优化的步骤:定义智能体对环境的熟悉程度,让智能体处于自身比较熟悉的环境之下,熟悉环境的方法是让智能体去经历,使用经验回放机制为训练智能体对环境的熟悉程度;针对环境的熟悉程度,让智能体利用当前的动作和当前的状态预测下一时刻的环境,若预测的环境和智能体真实所处的环境经过比较之后,差距较小,则认为智能体对当前智能体的环境是熟悉的,在熟悉的环境下,智能体能做出更好地动作,得到更好地奖励;将智能体对环境的熟悉程度加以度量,使用一定的方法与环境反馈的原始奖励值结合,组成新的奖励值,然后利用重组的奖励值更新神经网络。
2.根据权利要求1所述的非完备信息博弈方法,其特征在于,在所述探索利用机制改进策略梯度算法的步骤中,G是范围在0.4到0.6的随机数,R是超参数,通过网格搜索寻优。
3.根据权利要求1所述的非完备信息博弈方法,其特征在于,在所述自我驱动机制对奖励值进行优化的步骤中,需要状态特征提取网络和状态预测网络,其中状态特征提取网络将各帧画面中转换成相应的状态特征,而状态预测网络利用状态和动作预测未来的状态。
4.根据权利要求3所述的非完备信息博弈方法,其特征在于,在所述自我驱动机制对奖励值进行优化的步骤中,采用状态特征提取网络对当前时刻和下一时刻的状态进行特征提取,然后将两者提取的特征进行差异的计算;特征提取网络的训练采用有监督训练的方式,相邻状态之间智能体所采取的动作已经在经验回放池子里记录,所以该动作可以当作训练神经网络的标签数据,把该神经网络成为动作预测网络;该神经网络利用相邻状态作为输入,预测两状态之间智能体所采取的动作,当前时刻采取的动作作为标签,从而进行网络参数的训练。
5.一种基于深度强化学习的非完备信息博弈装置,其特征在于,包括:
使用探索利用机制改进策略梯度算法的模块:为了控制智能体使其在每个回合的前期和后期阶段利用已经更新计算的策略,在回合的中段使用探索的策略,使用m和n两个参数对切换策略的时机做出了限制,更新方式为m=G×L,n=R×G×(L-m),其中L是根据历史经验计算的每个回合智能体平均采取的动作次数,并随着训练的进行不断更新,G是随机数,R是超参数,G和R的作用是限制智能体探索行为的数量,并保证探索行为发生在每回合的中段部分;
深度强化学习网络中加入记忆单元的模块:在深度强化学习神经网络添加记忆单元,从而帮助智能体在考虑当前状态时,综合考虑记忆单元记录的历史信息,做出更合理的决策;
自我驱动机制对奖励值进行优化的模块:定义智能体对环境的熟悉程度,让智能体处于自身比较熟悉的环境之下,熟悉环境的方法是让智能体去经历,使用经验回放机制为训练智能体对环境的熟悉程度;针对环境的熟悉程度,让智能体利用当前的动作和当前的状态预测下一时刻的环境,若预测的环境和智能体真实所处的环境经过比较之后,差距较小,则认为智能体对当前智能体的环境是熟悉的,在熟悉的环境下,智能体能做出更好地动作,得到更好地奖励;将智能体对环境的熟悉程度加以度量,使用一定的方法与环境反馈的原始奖励值结合,组成新的奖励值,然后利用重组的奖励值更新神经网络。
6.根据权利要求5所述的非完备信息博弈装置,其特征在于,在所述探索利用机制改进策略梯度算法的模块中,G是范围在0.4到0.6的随机数,R是超参数,通过网格搜索寻优。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨工业大学(深圳),未经哈尔滨工业大学(深圳)许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910676439.9/1.html,转载请声明来源钻瓜专利网。