[发明专利]一种基于贝叶斯概率的强化学习智能体控制优化方法有效

申请号：	202011420174.5	申请日：	2020-12-08
公开（公告）号：	CN112462613B	公开（公告）日：	2022-09-23
发明（设计）人：	周世海	申请（专利权）人：	周世海
主分类号：	G05B13/04	分类号：	G05B13/04
代理公司：	暂无信息	代理人：	暂无信息
地址：	315722 浙***	国省代码：	浙江;33
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于贝叶斯概率强化学习智能控制优化方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种基于贝叶斯概率的强化学习智能体控制优化方法，该方法通过贝叶斯概率，将策略空间向量化，使得使用者能够较好的测定当前深度强化学习智能体已经探索的策略空间，更有利于使用者调整训练方法，探索未知的策略空间。

技术领域

本发明涉及人工智能技术领域，尤其是涉及一种基于贝叶斯概率的强化学习智能体控制优化方法。

背景技术

深度强化学习作为当下人工智能的决策算法之一，拥有着广泛的应用领域，包括无人驾驶，无人机，机器人控制等等，然而在使用深度强化学习作为机器控制的决策算法时，通常都需要长时间的环境探索与训练，而在这一过程中，则容易出现局部最优的问题，使得花费了巨大的训练成本后，机器人仍然无法很好的执行指定任务。同时，强化学习往往要结合业务目标设计繁琐的奖励函数，这也需要耗费大量的时间精力对业务问题进行人工量化，这导致深度强化学习这一控制算法目前在工业领域仍然无法很好的推广。

另外，由于深度学习的参数量巨大，且常规情况下权重不具有上下限，因此很难以较为简洁准确的形式将当前深度强化学习智能体的策略表示出来。

发明内容

本发明所要解决的技术问题是提供一种能够将策略空间向量化，能进行全方位策略探索，且不需要设计繁琐的奖励函数的一种基于贝叶斯概率的强化学习智能体控制优化方法。

本发明所采用的技术方案是，一种基于贝叶斯概率的强化学习智能体控制优化方法，包括：

S1、构建一个包括N个节点的策略网络，所述策略网络的激活函数为线性整流函数；

S2、构建策略网络所要执行任务的奖励目标，所述奖励目标至少包括正奖励目标和无奖励目标或负奖励目标与无奖励目标；

S3、根据贝叶斯概率公式，计算策略网络每一个节点在任一奖励目标下，被线性整流函数激活的概率；

S4、使用基于奖励目标构建的奖励函数进行探索与训练，当智能体执行任务陷入局部最优问题时，根据每个节点在对应奖励目标下的概率构建策略探索奖励函数，对策略网络进行优化。

本发明的有益效果是：使用贝叶斯概率来计算每一个节点在对应任务目标下的激活概率，使得在同一策略下，该策略能够通过每个节点的激活概率这一形式存在，将数量巨大的权重参数转化为了数量较小的节点参数，且范围有限，能够较好的用向量表示当前策略，有利于当前策略的定位以及全方位的策略探索

作为优先，所述S3包括：

S31、在当前策略中，统计每一步动作执行后，得到的目标奖励，计算得到在该回合中，正奖励目标或负奖励目标或无奖励目标的概率P(X)，X表示得到目标奖励这一事件；

S32、在当前策略中，统计每个节点每一次亮起时，每一个奖励目标对应的概率P(X|θ)，θ表示节点激活这一事件；