[发明专利]基于值函数可信度的多智能体强化学习方法及相关装置在审
申请号: | 202111222876.7 | 申请日: | 2021-10-20 |
公开(公告)号: | CN114037049A | 公开(公告)日: | 2022-02-11 |
发明(设计)人: | 李帅斌;崔金强;宋伟伟;孙涛;丁玉隆;尉越 | 申请(专利权)人: | 鹏城实验室 |
主分类号: | G06N3/04 | 分类号: | G06N3/04;G06N3/08 |
代理公司: | 深圳市君胜知识产权代理事务所(普通合伙) 44268 | 代理人: | 温宏梅 |
地址: | 518000 广*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 函数 可信度 智能 强化 学习方法 相关 装置 | ||
1.一种基于值函数可信度的多智能体强化学习方法,其特征在于,所述方法包括:
获取各智能体的观测值,并基于各智能体各自对应的观测值确定各智能体各自对应的势能函数;
基于各智能体各自对应的势能函数确定若干局部值函数以及候选全局值函数,其中,若干局部值函数中的每个局部值函数均基于部分势能函数确定得到的;
获取多智能体对应的全局环境信息,并基于所述全局环境信息、若干局部值函数以及候选全局值函数,确定各局部值函数和候选全局值函数各自对应的信誉值;
基于各局部值函数、候选全局值函数以及各局部值函数和候选全局值函数各自对应的信誉值确定多智能体对应的全局值函数;
基于所述全局值函数以及各智能体各自对应的势能函数,利用集中训练分布执行的机制训练多智能体。
2.根据权利要求1所述的基于值函数可信度的多智能体强化学习方法,其特征在于,所述若干局部值函数中的每个局部值函数各自对应的势能函数互不相同。
3.根据权利要求1或2所述的基于值函数可信度的多智能体强化学习方法,其特征在于,所述基于各智能体各自对应的势能函数确定若干局部值函数具体包括:
将多智能体划分为若干智能体组,其中,若干智能体组中至少存在一个智能体组包括的智能体的数量大于1;
对于若干智能体组中的每个智能体组,基于该智能体组中的各智能体各自对应的势能函数确定该智能体对应的局部值函数,以得到若干局部值函数。
4.根据权利要求3所述的基于值函数可信度的多智能体强化学习方法,其特征在于,所述将多智能体划分为若干智能体组具体包括:
获取多智能体中的各智能体各自对应的智能体类别,并检测各智能体各自对应的智能体类别是否完全相同;
当全部相同时,将若干智能体随机分配为若干智能体组;
当不全部相同时,基于智能体类别将多智能体划分为若干智能体组。
5.根据权利要求1所述的基于值函数可信度的多智能体强化学习方法,其特征在于,所述全局环境信息包括全局状态信息以及训练步长。
6.根据权利要求1或5所述的基于值函数可信度的多智能体强化学习方法,其特征在于,所述基于所述全局环境信息、若干局部值函数以及候选全局值函数,确定各局部值函数和候选全局值函数各自对应的信誉值具体包括:
将所述全局环境信息、若干局部值函数以及候选全局值函数输入多层感知器,通过多层感知器输出各局部值函数以及候选全局值函数各自对应的候选信誉值;
将各候选信誉值输入softmax层,通过softmax层输出各局部值函数以及候选全局值函数各自对应的信誉值。
7.根据权利要求1所述的基于值函数可信度的多智能体强化学习方法,其特征在于,所述基于各局部值函数、候选全局值函数以及各局部值函数和候选全局值函数各自对应的信誉值确定多智能体对应的全局值函数具体为:
将各局部值函数和候选全局值函数各自对应的信誉值作为局部值函数和候选全局值函数的折损因子;
基于各折损因子将各局部值函数和候选全局值函数进行求和,以得到确定多智能体对应的全局值函数。
8.一种基于值函数可信度的多智能体强化学习装置,其特征在于,所述的装置包括:
获取模块,用于获取各智能体的观测值,并基于各智能体各自对应的观测值确定各智能体各自对应的势能函数;
第一确定模块,用于基于各智能体各自对应的势能函数确定若干局部值函数以及候选全局值函数,其中,若干局部值函数中的每个局部值函数均基于部分势能函数确定得到的;
第二确定模块,用于获取多智能体对应的全局环境信息,并基于所述全局环境信息、若干局部值函数以及候选全局值函数,确定各局部值函数和候选全局值函数各自对应的信誉值;
第三确定模块,用于基于各局部值函数、候选全局值函数以及各局部值函数和候选全局值函数各自对应的信誉值确定多智能体对应的全局值函数;
训练模块,用于基于所述全局值函数以及各智能体各自对应的势能函数,利用集中训练分布执行的机制训练多智能体。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于鹏城实验室,未经鹏城实验室许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111222876.7/1.html,转载请声明来源钻瓜专利网。