[发明专利]一种基于DQN的智能体训练方法在审

申请号：	202111334941.5	申请日：	2021-11-11
公开（公告）号：	CN114065916A	公开（公告）日：	2022-02-18
发明（设计）人：	曹子建;贾浩文;傅妍芳;容晓峰;杜志强;王振雨;李骁;李建	申请（专利权）人：	西安工业大学
主分类号：	G06N3/04	分类号：	G06N3/04;G06N3/08;A63F13/822
代理公司：	西安嘉思特知识产权代理事务所(普通合伙) 61230	代理人：	王萌
地址：	710000 陕***	国省代码：	陕西;61
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于 dqn 智能训练方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于DQN的智能体训练方法，其特征在于，包括：

随机初始化DQN网络的网络参数，得到若干初始DQN网络；

将每个初始DQN网络的所有网络参数，映射得到一个个体，所有个体构成初始种群；

对所述初始种群进行差分演化操作，得到新一代网络参数种群，并将新一代网络参数种群作为下一代的初始种群重复差分演化操作，直至达到预设的演化条件，得到最终网络参数种群；

利用预设的适应度函数对所述最终网络参数种群中每个个体进行评价，输出最优个体的信息；

根据所述最优个体的信息初始化所述DQN网络的网络参数；

对参数初始化的DQN网络进行训练，得到智能体。

2.根据权利要求1所述的基于DQN的智能体训练方法，其特征在于，所述网络参数包括：输入层与隐藏层连接的权重值、隐藏层的偏置项、隐藏层与输出层连接的权重值、以及输出层的偏置项。

3.根据权利要求1所述的基于DQN的智能体训练方法，其特征在于，按照下式构建个体x_k为：

其中，所有个体构成初始种群x，x＝{x₁，x₂，x₃，……，x_k}，x_k表示第k个个体，k表示种群中个体的索引值，k＝1,2,...,NP，NP表示种群中个体的数目，n表示DQN神经网络的层数，m₁,m₂...m_n分别表示DQN神经网络中的权重索引值，m_n表示第n层网络节点所具有的权重的最大个数，代表第i层网络到第i+1层网络的第一个权值，b_i表示第i层网络的偏置项。

4.根据权利要求1所述的基于DQN的智能体训练方法，其特征在于，所述差分演化操作，包括：

利用变异算子对所述初始种群进行变异处理，得到变异种群；

利用二项式交叉方式对所述变异种群进行交叉操作，得到交叉种群；

比较所述交叉种群中每个个体的适应度值与其初始种群中相应的个体的适应度值，根据比较结果选择更优秀的个体，组成所述新一代网络参数种群。

5.根据权利要求4所述的基于DQN的智能体训练方法，其特征在于，按照下式对所述初始种群中每个个体进行变异处理，得到变异种群v，

其中，t表示种群的演化代数，k表示种群中的个体索引值，k＝1,2,...,NP，NP表示种群中个体的数目，j表示个体维数的索引值，j＝1,2,...,D，D表示种群维数，r₁,r₂分别表示从NP个个体中随机采样得到的索引值，并且r1≠r2，为第t代种群中的最优个体，F表示缩放因子，表示在演化第t代种群x中第k个个体的第j维，表示在演化第t代变异种群v中第k个个体的第j维。

6.根据权利要求5所述的基于DQN的智能体训练方法，其特征在于，按照下式对所述变异种群中每个个体进行交叉操作，得到交叉种群u，

其中，CR表示交叉概率，CR∈[0,1]，rand为[0,1]之间的随机数，jrand为[0,D]之间的随机整数，表示在演化第t代交叉种群u中第k个个体的第j维。

7.根据权利要求6所述的基于DQN的智能体训练方法，其特征在于，按照如下选择方式，选择更优秀的个体，组成所述新一代网络参数种群，

其中，f表示适应度函数，表示在差分演化进行到第t代时，其初始种群x中第k个个体的适应度值，表示在差分演化进行到第t代时，交叉种群u中第k个个体的适应度值，表示新一代网络参数种群中第k个个体。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于西安工业大学，未经西安工业大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202111334941.5/1.html，转载请声明来源钻瓜专利网。

上一篇：一种GaAs双面双结薄膜太阳能电池结构及制备方法
下一篇：一种菌藻混合物、菌藻共生体系及其构建方法和应用

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06N 基于特定计算模型的计算机系统
G06N3-00 基于生物学模型的计算机系统
G06N3-02 .采用神经网络模型
G06N3-12 .采用遗传模型
G06N3-04 ..体系结构，例如，互连拓扑
G06N3-06 ..物理实现，即神经网络、神经元或神经元部分的硬件实现
G06N3-08 ..学习方法

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于DQN的智能体训练方法在审

专利文献下载