[发明专利]一种基于贝叶斯概率的强化学习智能体控制优化方法有效
申请号: | 202011420174.5 | 申请日: | 2020-12-08 |
公开(公告)号: | CN112462613B | 公开(公告)日: | 2022-09-23 |
发明(设计)人: | 周世海 | 申请(专利权)人: | 周世海 |
主分类号: | G05B13/04 | 分类号: | G05B13/04 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 315722 浙*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 贝叶斯 概率 强化 学习 智能 控制 优化 方法 | ||
本发明公开了一种基于贝叶斯概率的强化学习智能体控制优化方法,该方法通过贝叶斯概率,将策略空间向量化,使得使用者能够较好的测定当前深度强化学习智能体已经探索的策略空间,更有利于使用者调整训练方法,探索未知的策略空间。
技术领域
本发明涉及人工智能技术领域,尤其是涉及一种基于贝叶斯概率的强化学习智能体控制优化方法。
背景技术
深度强化学习作为当下人工智能的决策算法之一,拥有着广泛的应用领域,包括无人驾驶,无人机,机器人控制等等,然而在使用深度强化学习作为机器控制的决策算法时,通常都需要长时间的环境探索与训练,而在这一过程中,则容易出现局部最优的问题,使得花费了巨大的训练成本后,机器人仍然无法很好的执行指定任务。同时,强化学习往往要结合业务目标设计繁琐的奖励函数,这也需要耗费大量的时间精力对业务问题进行人工量化,这导致深度强化学习这一控制算法目前在工业领域仍然无法很好的推广。
另外,由于深度学习的参数量巨大,且常规情况下权重不具有上下限,因此很难以较为简洁准确的形式将当前深度强化学习智能体的策略表示出来。
发明内容
本发明所要解决的技术问题是提供一种能够将策略空间向量化,能进行全方位策略探索,且不需要设计繁琐的奖励函数的一种基于贝叶斯概率的强化学习智能体控制优化方法。
本发明所采用的技术方案是,一种基于贝叶斯概率的强化学习智能体控制优化方法,包括:
S1、构建一个包括N个节点的策略网络,所述策略网络的激活函数为线性整流函数;
S2、构建策略网络所要执行任务的奖励目标,所述奖励目标至少包括正奖励目标和无奖励目标或负奖励目标与无奖励目标;
S3、根据贝叶斯概率公式,计算策略网络每一个节点在任一奖励目标下,被线性整流函数激活的概率;
S4、使用基于奖励目标构建的奖励函数进行探索与训练,当智能体执行任务陷入局部最优问题时,根据每个节点在对应奖励目标下的概率构建策略探索奖励函数,对策略网络进行优化。
本发明的有益效果是:使用贝叶斯概率来计算每一个节点在对应任务目标下的激活概率,使得在同一策略下,该策略能够通过每个节点的激活概率这一形式存在,将数量巨大的权重参数转化为了数量较小的节点参数,且范围有限,能够较好的用向量表示当前策略,有利于当前策略的定位以及全方位的策略探索
作为优先,所述S3包括:
S31、在当前策略中,统计每一步动作执行后,得到的目标奖励,计算得到在该回合中,正奖励目标或负奖励目标或无奖励目标的概率P(X),X表示得到目标奖励这一事件;
S32、在当前策略中,统计每个节点每一次亮起时,每一个奖励目标对应的概率P(X|θ),θ表示节点激活这一事件;
S33、在当前策略中,统计每一个节点激活的概率P(θ);
S34、计算得到,在当前策略中,每个节点在奖励目标下激活的概率上述方法,能够通过贝叶斯概率公式,得到每一个节点在对应任务目标下激活的概率。
作为优先,所述S4包括:
A1、当所述策略网络优化收敛后陷入局部最优时,计算优化过程中每一条策略的每个节点在相应奖励目标下的概率表示,并归一化,得到每一条策略在对应奖励目标下的向量表示;
A2、在A1得到的归一化向量基础上,构建超球面,定义一个最小近似面积,作为每一个策略向量的点在超球面上占用的近似面积,每一个奖励目标各自对应一个超球面;
A3、累积计算当前已有策略所占用的面积,将正奖励目标下,已占有的超球面面积作为奖励函数的正奖励,将负奖励目标下策略占用面积作为奖励函数的负奖励;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于周世海,未经周世海许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011420174.5/2.html,转载请声明来源钻瓜专利网。