[发明专利]一种基于DQN的智能体训练方法在审
申请号: | 202111334941.5 | 申请日: | 2021-11-11 |
公开(公告)号: | CN114065916A | 公开(公告)日: | 2022-02-18 |
发明(设计)人: | 曹子建;贾浩文;傅妍芳;容晓峰;杜志强;王振雨;李骁;李建 | 申请(专利权)人: | 西安工业大学 |
主分类号: | G06N3/04 | 分类号: | G06N3/04;G06N3/08;A63F13/822 |
代理公司: | 西安嘉思特知识产权代理事务所(普通合伙) 61230 | 代理人: | 王萌 |
地址: | 710000 陕*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 dqn 智能 训练 方法 | ||
1.一种基于DQN的智能体训练方法,其特征在于,包括:
随机初始化DQN网络的网络参数,得到若干初始DQN网络;
将每个初始DQN网络的所有网络参数,映射得到一个个体,所有个体构成初始种群;
对所述初始种群进行差分演化操作,得到新一代网络参数种群,并将新一代网络参数种群作为下一代的初始种群重复差分演化操作,直至达到预设的演化条件,得到最终网络参数种群;
利用预设的适应度函数对所述最终网络参数种群中每个个体进行评价,输出最优个体的信息;
根据所述最优个体的信息初始化所述DQN网络的网络参数;
对参数初始化的DQN网络进行训练,得到智能体。
2.根据权利要求1所述的基于DQN的智能体训练方法,其特征在于,所述网络参数包括:输入层与隐藏层连接的权重值、隐藏层的偏置项、隐藏层与输出层连接的权重值、以及输出层的偏置项。
3.根据权利要求1所述的基于DQN的智能体训练方法,其特征在于,按照下式构建个体xk为:
其中,所有个体构成初始种群x,x={x1,x2,x3,……,xk},xk表示第k个个体,k表示种群中个体的索引值,k=1,2,...,NP,NP表示种群中个体的数目,n表示DQN神经网络的层数,m1,m2...mn分别表示DQN神经网络中的权重索引值,mn表示第n层网络节点所具有的权重的最大个数,代表第i层网络到第i+1层网络的第一个权值,bi表示第i层网络的偏置项。
4.根据权利要求1所述的基于DQN的智能体训练方法,其特征在于,所述差分演化操作,包括:
利用变异算子对所述初始种群进行变异处理,得到变异种群;
利用二项式交叉方式对所述变异种群进行交叉操作,得到交叉种群;
比较所述交叉种群中每个个体的适应度值与其初始种群中相应的个体的适应度值,根据比较结果选择更优秀的个体,组成所述新一代网络参数种群。
5.根据权利要求4所述的基于DQN的智能体训练方法,其特征在于,按照下式对所述初始种群中每个个体进行变异处理,得到变异种群v,
其中,t表示种群的演化代数,k表示种群中的个体索引值,k=1,2,...,NP,NP表示种群中个体的数目,j表示个体维数的索引值,j=1,2,...,D,D表示种群维数,r1,r2分别表示从NP个个体中随机采样得到的索引值,并且r1≠r2,为第t代种群中的最优个体,F表示缩放因子,表示在演化第t代种群x中第k个个体的第j维,表示在演化第t代变异种群v中第k个个体的第j维。
6.根据权利要求5所述的基于DQN的智能体训练方法,其特征在于,按照下式对所述变异种群中每个个体进行交叉操作,得到交叉种群u,
其中,CR表示交叉概率,CR∈[0,1],rand为[0,1]之间的随机数,jrand为[0,D]之间的随机整数,表示在演化第t代交叉种群u中第k个个体的第j维。
7.根据权利要求6所述的基于DQN的智能体训练方法,其特征在于,按照如下选择方式,选择更优秀的个体,组成所述新一代网络参数种群,
其中,f表示适应度函数,表示在差分演化进行到第t代时,其初始种群x中第k个个体的适应度值,表示在差分演化进行到第t代时,交叉种群u中第k个个体的适应度值,表示新一代网络参数种群中第k个个体。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安工业大学,未经西安工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111334941.5/1.html,转载请声明来源钻瓜专利网。