[发明专利]一种基于深度强化学习的非完备信息博弈方法、装置、系统及存储介质有效
申请号: | 201910676439.9 | 申请日: | 2019-07-25 |
公开(公告)号: | CN110399920B | 公开(公告)日: | 2021-07-27 |
发明(设计)人: | 王轩;漆舒汉;蒋琳;曹睿;李明豪;廖清;李化乐;张加佳;刘洋;夏文 | 申请(专利权)人: | 哈尔滨工业大学(深圳) |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 深圳市添源知识产权代理事务所(普通合伙) 44451 | 代理人: | 黎健任 |
地址: | 518000 广东省深圳市南*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明提供了一种基于深度强化学习的非完备信息博弈方法、装置、系统及存储介质,该方法包括:探索利用机制改进策略梯度算法的步骤、深度强化学习网络中加入记忆单元的步骤、自我驱动机制对奖励值进行优化的步骤。本发明的有益效果是:本发明通过基线函数解决策略梯度算法经常出现的高方差问题,对于强化学习采样和优化过程时间复杂度高的问题,采取并行机制提高模型求解效率,通过自驱动机制,在弥补环境奖励值稀疏的同时,帮助智能体更有效地对环境进行探索。 | ||
搜索关键词: | 一种 基于 深度 强化 学习 完备 信息 博弈 方法 装置 系统 存储 介质 | ||
【主权项】:
1.一种基于深度强化学习的非完备信息博弈方法,其特征在于,包括如下步骤:探索利用机制改进策略梯度算法的步骤:为了控制智能体使其在每个回合的前期和后期阶段利用已经更新计算的策略,在回合的中段使用探索的策略,使用m和n两个参数对切换策略的时机做出了限制,更新方式为m=G×L,n=R×G×(L‑m),其中L是根据历史经验计算的每个回合智能体平均采取的动作次数,并随着训练的进行不断更新,G是随机数,R是超参数,G和R的作用是限制智能体探索行为的数量,并保证探索行为发生在每回合的中段部分;深度强化学习网络中加入记忆单元的步骤:在深度强化学习神经网络添加记忆单元,从而帮助智能体在考虑当前状态时,综合考虑记忆单元记录的历史信息,做出更合理的决策;自我驱动机制对奖励值进行优化的步骤:定义智能体对环境的熟悉程度,让智能体处于自身比较熟悉的环境之下,熟悉环境的方法是让智能体去经历,使用经验回放机制为训练智能体对环境的熟悉程度;针对环境的熟悉程度,让智能体利用当前的动作和当前的状态预测下一时刻的环境,若预测的环境和智能体真实所处的环境经过比较之后,差距较小,则认为智能体对当前智能体的环境是熟悉的,在熟悉的环境下,智能体能做出更好地动作,得到更好地奖励;将智能体对环境的熟悉程度加以度量,使用一定的方法与环境反馈的原始奖励值结合,组成新的奖励值,然后利用重组的奖励值更新相关神经网络。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨工业大学(深圳),未经哈尔滨工业大学(深圳)许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201910676439.9/,转载请声明来源钻瓜专利网。