[发明专利]一种基于DQN的智能体训练方法在审

申请号：	202111334941.5	申请日：	2021-11-11
公开（公告）号：	CN114065916A	公开（公告）日：	2022-02-18
发明（设计）人：	曹子建;贾浩文;傅妍芳;容晓峰;杜志强;王振雨;李骁;李建	申请（专利权）人：	西安工业大学
主分类号：	G06N3/04	分类号：	G06N3/04;G06N3/08;A63F13/822
代理公司：	西安嘉思特知识产权代理事务所(普通合伙) 61230	代理人：	王萌
地址：	710000 陕***	国省代码：	陕西;61
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于 dqn 智能训练方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明涉及一种基于DQN的智能体训练方法，包括：随机初始化DQN网络的网络参数，得到若干初始DQN网络；将每个初始DQN网络的所有网络参数，映射得到一个个体，所有个体构成初始种群；对初始种群进行差分演化操作，得到新一代网络参数种群，并将新一代网络参数种群作为下一代的初始种群重复差分演化操作，直至达到预设的演化条件，得到最终网络参数种群；利用预设的适应度函数对最终网络参数种群中每个个体进行评价，输出最优个体的信息；根据最优个体的信息初始化DQN网络的网络参数；对参数初始化的DQN网络进行训练，得到智能体。本发明的方法，在DQN训练过程中，加快了执行效率，减少了训练所需的时间资源，提高了游戏问题中智能体训练的即时性。

技术领域

本发明属于人工智能技术领域，具体涉及一种基于DQN的智能体训练方法。

背景技术

深度强化学习(Deep Reinforcement Learning，DRL)作为目前人工智能领域的热点话题，将强化学习和深度学习的思想相融合，有效解决了强化学习所无法解决的技术难题。对于连续动作空间和连续状态空间的决策问题，深度强化学习采用神经网络的方式有效率拟合了状态及动作空间连续的问题，为智能体在探索复杂高维环境下提供了更加有效的解决手段。

深度Q学习网络(Deep Q Network，DQN)作为深度强化学习的开山之作，有效的解决了状态空间连续且较大的无模型问题。其主要思想依旧与强化学习类似，通过智能体与环境的交互从而实现智能体的自主决策。在问题的解决方式上，DQN采用神经网络来拟合状态的输入及输出，而随着神经网络中的网络参数更新，算法可以逐渐的在复杂连续问题中做出自主决策。

近年来，学术界和企业界将深度强化学习广泛用于实际问题中，谷歌的DeepMind团队将致力于采用深度强化学习解决游戏问题，并在2016年初的围棋“人机大战”对局，DeepMind团队研发出的AlphaGo战胜了日本围棋冠军李世石，展现出了人类玩家所无法达到的精湛技艺。OpenAI的Gym作为一种用于开发和比较深度强化学习算法的工具，受到了众多学者的青睐，其中集成了较多的仿真游戏环境。作为深度强化学习的开山之作，DQN广泛地应用于解决游戏问题，而对于游戏问题中智能体的训练，由于神经网络的训练往往是一个耗时的过程，导致智能体训练的即时性能上会大打折扣。

通常来讲，对于无监督问题的训练，智能体需要通过获取更多有用信息来自主的调整自身的行为以获得更大的回报，最终达到自主决策的目的。而在较多情况下，根据具体问题的不同，智能体在算法初期所获取的有效回报信息较少，无法有效的加速网络收敛，并且在前期有效环境信息较少的情况下，盲目的探索会消耗大量的时间资源，从而降低了执行效率，导致游戏问题中智能体的训练所消耗的时间资源过长，即时性较差。

发明内容

为了解决现有技术中存在的上述问题，本发明提供了一种基于DQN的智能体训练方法。本发明要解决的技术问题通过以下技术方案实现：

本发明提供了一种基于DQN的智能体训练方法，包括：

随机初始化DQN网络的网络参数，得到若干初始DQN网络；

将每个初始DQN网络的所有网络参数，映射得到一个个体，所有个体构成初始种群；

对所述初始种群进行差分演化操作，得到新一代网络参数种群，并将新一代网络参数种群作为下一代的初始种群重复差分演化操作，直至达到预设的演化条件，得到最终网络参数种群；

利用预设的适应度函数对所述最终网络参数种群中每个个体进行评价，输出最优个体的信息；

根据所述最优个体的信息初始化所述DQN网络的网络参数；

对参数初始化的DQN网络进行训练，得到智能体。

在本发明的一个实施例中，所述网络参数包括：输入层与隐藏层连接的权重值、隐藏层的偏置项、隐藏层与输出层连接的权重值、以及输出层的偏置项。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载