[发明专利]资源受限条件下提高强化学习探索效率的方法有效
申请号: | 202210336685.1 | 申请日: | 2022-04-01 |
公开(公告)号: | CN114492845B | 公开(公告)日: | 2022-07-15 |
发明(设计)人: | 王杰;王治海;潘涛星;周祺;李厚强 | 申请(专利权)人: | 中国科学技术大学 |
主分类号: | G06N20/00 | 分类号: | G06N20/00 |
代理公司: | 北京凯特来知识产权代理有限公司 11260 | 代理人: | 郑立明;付久春 |
地址: | 230026 安*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 资源 受限 条件下 提高 强化 学习 探索 效率 方法 | ||
1.一种资源受限条件下提高强化学习探索效率的方法,其特征在于,用于智能体通过受限资源与环境交互完成预设的任务中,所述智能体利用受限资源探索环境,接受所述环境反馈的状态选择动作,所述环境接受所述智能体的动作决定该环境的新状态,包括:
步骤1,所述智能体通过其运行的强化学习算法的策略网络的策略选择动作去探索环境;
步骤2,接受所述环境返回执行所述智能体动作后的新状态和相应的外在奖励;
步骤3,通过资源感知方式计算所述智能体用于探索环境的内在奖励;
步骤4,按以下总体奖励计算公式计算所述智能体的总体奖励,所述总体奖励计算公式为:总体奖励 = 外在奖励 + 内在奖励×行为内在奖励系数;
步骤5,根据得出的所述智能体的总体奖励对所述智能体的强化学习算法的策略网络进行更新;
步骤6,判断所述智能体本轮环境探索得到的所有外在奖励的累积值是否最大化,若否,则回到所述步骤1重复进行处理,若是,则结束本轮环境探索。
2.根据权利要求1所述的资源受限条件下提高强化学习探索效率的方法,其特征在于,所述步骤3中,通过资源感知方式计算所述智能体用于探索环境的内在奖励是计算每个状态动作对应的探索奖励,所述的计算公式为:;
其中,为资源重要性函数;为状态动作对的新颖度,状态动作对中,s 代表状态,a 代表动作;为当前状态s中资源的剩余量。
3.根据权利要求2所述的资源受限条件下提高强化学习探索效率的方法,其特征在于,所述状态动作对的新颖度用智能体在对环境进行探索获得新数据后对真实环境模型的估计和真实环境模型的KL散度衡量,其中,
所述真实环境模型的KL散度的近似为:
;
;
;
其中,和分别为环境的真实状态转移概率密度以及真实环境模型估计的状态转移概率密度;为分布和的交叉熵;为分布的熵;
则所述状态动作对的新颖度为:。
4.根据权利要求2或3所述的资源受限条件下提高强化学习探索效率的方法,其特征在于,所述资源重要性函数包括针对单一资源问题的资源重要性函数与针对多种资源问题的资源重要性函数,其中,
所述针对单一资源问题的资源重要性函数为:;
其中,为单一资源的初始资源量;为资源重要性系数,取=1;
所述针对多种资源问题的资源重要性函数为:;
其中,为第i种资源的初始资源量,i取值1到
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学技术大学,未经中国科学技术大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210336685.1/1.html,转载请声明来源钻瓜专利网。