[发明专利]一种深度强化学习网络设置合理性的判别方法有效

申请号：	202110509439.7	申请日：	2021-05-11
公开（公告）号：	CN113177601B	公开（公告）日：	2022-09-06
发明（设计）人：	朱进;魏俣童	申请（专利权）人：	中国科学技术大学
主分类号：	G06K9/62	分类号：	G06K9/62;G06N3/04;G06N3/08
代理公司：	北京科迪生专利代理有限责任公司 11251	代理人：	张乾桢
地址：	230026 安***	国省代码：	安徽;34
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种深度强化学习网络设置合理性判别方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明涉及一种深度强化学习中深度网络设置合理性的判别方法，包括如下步骤：步骤1:根据工程需要建立深度强化学习智能体；步骤2:根据经验分别设置智能体中深度网络设置是否合理的先验概率，再根据大偏差定理计算使网络设置合理性的误判概率最小化的边界值m₀；步骤3:智能体开始与环境进行交互并且获得奖励；步骤4:统计长度为n的观察窗口内负奖励出现的次数m；步骤5:判断m≥m₀是否成立，若是，则导致负奖励出现的因素被视为智能体中深度网络的层和节点的设置不合适，停止智能体与环境的交互，并且重新设置网络参数；若否，则负奖励出现的原因被认为是训练过程未完成，智能体与环境的交互继续进行；步骤6:开启下一时间段的判断，直至完成智能体中深度网络的设置和训练。

技术领域

本发明涉及机器学习领域，尤其是一种深度强化学习网络设置合理性的判别方法。

背景技术

强化学习是一个经常被用于解决序列决策问题的方法，深度强化学习方法集成了深度学习强大的学习能力以及强化学习的决策能力，在很多复杂的实际场景下都得到了广泛应用，该方法通过与环境进行交互来学习并获得最优策略。强化学习主体每采取一次动作就会得到一个相应的奖励，这个奖励表示此次动作的好坏，通过最大化累计奖励，可以求解出最优策略。但传统的强化学习方法难以解决大状态空间和动作空间中的决策问题，现有的深度强化学习方法引入了深度网络来对给定状态下动作将带来的奖励进行预测，即状态动作值，解决了传统强化学习对于状态和动作空间维数的限制，使其可以在很多实际场景中得到应用。但在使用该方法时仍然存在一个普遍的问题，即必须对深度网络的参数设置(深度网络层数及节点数)进行精细的调整，才能取得良好的学习效果。而由于缺乏对环境的先验知识，我们通常反复多次的尝试才能选取出一组合适的参数，在不同参数的深度网络训练过程中，经常会出现在一段时间内强化学习智能体获得的奖励为负的现象。造成这种现象的原因可归纳为两个可能的因素：深度网络中层和节点的设置不正确，导致状态动作值估计偏差过大，或深度网络训练过程未完成。在正常情况下，我们倾向于将训练过程未完成作为主要原因，并浪费大量时间等待网络收敛，降低了深度强化学习智能体的实用性。

发明内容

为了解决上述技术问题，本发明公开了一种深度强化学习网络设置合理性的判别方法，在深度网络收敛之前，根据观察到的奖励序列来对深度网络参数设置是否合理做出预判，有效节省在应用深度强化学习方法时需要付出的时间以及试错成本。

本发明的技术方案为：一种深度强化学习网络设置合理性的判别方法，在深度强化学习方法中深度网络收敛之前对参数设置的合理性进行预判，包括如下步骤：

步骤1:根据工程需要建立深度强化学习智能体，设定长度为n的观察窗口，定义该观察窗口内负奖励出现的次数为m，将其初始化为0；

步骤2:用事件A表示深度网络训练未完成，事件B表示深度网络设置不合理，根据经验分别设置深度网络设置是否合理的先验概率P(A)和P(B)，再根据大偏差定理计算使误判概率最小化的边界值m₀；

步骤3:深度强化学习的智能体开始与环境进行交互并且获得奖励，每当奖励为负时计数加1；

步骤4:统计长度为n的观察窗口内负奖励出现的次数m；

步骤5:根据贝叶斯公式，判断m≥m₀是否成立，若是，则导致负奖励出现的因素被视为深度强化学习中网络的层和节点的设置不合适，停止智能体与环境的交互，并且重新设置网络参数；若否，则负奖励出现的原因被认为是训练过程未完成，智能体与环境的交互继续进行；

步骤6:开启下一时间段的判断，直至观察窗口内的奖励变成正值，即完成深度网络的设置和训练。

进一步的，所述步骤2中，计算使误判概率最小化的边界值m₀具体如下：

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于中国科学技术大学，未经中国科学技术大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202110509439.7/2.html，转载请声明来源钻瓜专利网。

上一篇：一种延长琉璃苣花保鲜期的方法
下一篇：一种基于改进式RRT算法的机械臂自主避障方法

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06K 数据识别；数据表示；记录载体；记录载体的处理
G06K9-00 用于阅读或识别印刷或书写字符或者用于识别图形，例如，指纹的方法或装置
G06K9-03 .错误的检测或校正，例如，用重复扫描图形的方法
G06K9-18 .应用具有附加代码标记或含有代码标记的打印字符的，例如，由不同形状的各个笔画组成的，而且每个笔画表示不同的代码值的字符
G06K9-20 .图像捕获
G06K9-36 .图像预处理，即无须判定关于图像的同一性而进行的图像信息处理
G06K9-60 .图像捕获和多种预处理作用的组合

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种深度强化学习网络设置合理性的判别方法有效

专利文献下载