[发明专利]一种基于贝叶斯概率的强化学习智能体控制优化方法有效

申请号：	202011420174.5	申请日：	2020-12-08
公开（公告）号：	CN112462613B	公开（公告）日：	2022-09-23
发明（设计）人：	周世海	申请（专利权）人：	周世海
主分类号：	G05B13/04	分类号：	G05B13/04
代理公司：	暂无信息	代理人：	暂无信息
地址：	315722 浙***	国省代码：	浙江;33
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于贝叶斯概率强化学习智能控制优化方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于贝叶斯概率的强化学习智能体控制优化方法，其特征在于，包括：

S1、构建一个包括N个节点的策略网络，所述策略网络的激活函数为线性整流函数；

S2、构建策略网络所要执行任务的奖励目标，所述奖励目标至少包括正奖励目标和无奖励目标或负奖励目标与无奖励目标；

S3、根据贝叶斯概率公式，计算策略网络每一个节点在任一奖励目标下，被线性整流函数激活的概率；

S4、使用基于奖励目标构建的奖励函数进行探索与训练，当智能体执行任务陷入局部最优问题时，根据每个节点在对应奖励目标下的概率构建策略探索奖励函数，对策略网络进行优化；

其中，所述S4具体包括如下步骤：

A1、当所述策略网络优化收敛后陷入局部最优时，计算优化过程中每一条策略的每个节点在相应奖励目标下的概率表示，并归一化，得到每一条策略在对应奖励目标下的向量表示；

A2、在A1得到的归一化向量基础上，构建超球面，定义一个最小近似面积，作为每一个策略向量的点在超球面上占用的近似面积，每一个奖励目标各自对应一个超球面；

A3、累积计算当前已有策略所占用的面积，将正奖励目标下，已占有的超球面面积作为奖励函数的正奖励，将负奖励目标下策略占用面积作为奖励函数的负奖励；

A4、在基于奖励目标构建的奖励函数基础上，继续训练策略网络，同时将A3的得到的奖励作为每一条策略的最后一步时的奖励，鼓励智能体扩大策略搜索空间；

或者，所述S4具体包括如下步骤：

B1、在得到多条策略的向量表示的基础上，计算策略在超球面上的分布密度，选择分布密度稀疏区域的策略向量对应的策略网络，作为训练起始策略进行鼓励策略探索训练；

B2、多次随机得到策略网络的多组随机策略，计算随机策略在超球面上的位置，若与最近的策略在超球面上的点的距离都大于已有策略在超球面上的点之间的最大球面距离或欧式距离，则保留该随机策略，并将该随机策略作为训练起始策略之一；

或者，所述S4具体包括如下步骤：

C1、定义基础权重修正值Δω和基础偏置修正值Δb；

C2、当当前策略的概率测定完成时，对策略网络中的权重和偏置进行更新，所述策略网络中每一个权重和偏置都对应前后两个节点node1和node2，将node1和node2在正奖励目标下的概率相乘得到针对Δω和Δb的加权参数γ；将node1和node2在负奖励目标下的概率相乘得到针对Δω和Δb的加权参数μ；

C3、令ω0为原权重参数，ω为新权重参数，则ω＝F(ω0，γ，Δω，μ)；令b0为原偏置参数，b为新偏置参数，则b＝G(b0，γ，Δb，μ)；

C4、测定新得到的策略在超球面的表示位置，转入方法B1或B2。

2.根据权利要求1所述的一种基于贝叶斯概率的强化学习智能体控制优化方法，其特征在于，所述S3包括：

S31、在当前策略中，统计每一步动作执行后，得到的目标奖励，计算得到在该回合中，正奖励目标或负奖励目标或无奖励目标的概率P(X)，X表示得到目标奖励这一事件；

S32、在当前策略中，统计每个节点每一次亮起时，每一个奖励目标对应的概率P(X|θ)，θ表示节点激活这一事件；

S33、在当前策略中，统计每一个节点激活的概率P(θ)；

S34、计算得到，在当前策略中，每个节点在奖励目标下激活的概率。

3.根据权利要求1所述的一种基于贝叶斯概率的强化学习智能体控制优化方法，其特征在于，所述B1和B2的训练为构建多个智能体进行并行化探索与训练。

4.根据权利要求1所述的一种基于贝叶斯概率的强化学习智能体控制优化方法，其特征在于，所述C3的更新公式为，

其中，a，b，c，d，e，f为限定Δω与Δb范围的超参数。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载