[发明专利]一种多智能体强化学习方法及系统在审
申请号: | 202110863643.9 | 申请日: | 2021-07-29 |
公开(公告)号: | CN113592100A | 公开(公告)日: | 2021-11-02 |
发明(设计)人: | 李厚强;周文罡;赵鉴;胡迅晗 | 申请(专利权)人: | 中国科学技术大学 |
主分类号: | G06N20/00 | 分类号: | G06N20/00 |
代理公司: | 北京凯特来知识产权代理有限公司 11260 | 代理人: | 郑立明;韩珂 |
地址: | 230026 安*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 智能 强化 学习方法 系统 | ||
1.一种多智能体强化学习方法,其特征在于,包括:
设置中心化的教师模块与去中心化的学生模块,教师模块与学生模块中包含相同数目的值函数网络,每个值函数网络均为估计单智能体状态动作值函数估计网络,对应应用场景中的一个智能体,所述教师模块还设有将所有单智能体的状态动作值函数整合为集中的状态动作值函数的混合网络;
训练阶段,教师模块中各值函数网络输入当前时刻全局的观测信息以及由相应值函数网络上一时刻得到的动作,输出单智能体状态动作值函数,所有的单智能体状态动作值函数输入至混合网络,混合网络对所有单智能体状态动作值函数加权混合得到集中状态动作值函数的过程,混合网络参数表达了集中状态动作值函数在当前状态下更依赖于某些单智能体状态动作值函数,即团队奖励更依赖于某些智能体的动作,通过训练中的梯度回传技术,隐式地完成了团队奖励分配;同时,学生模块中各值函数网络输入当前时刻局部的观测信息,以及教师模块中由相应值函数网络上一时刻得到的动作,采用知识蒸馏机制令教师模块估计的状态动作值函数指导学生模块学习局部的状态动作值函数;其中,观测信息是表征当前应用场景状态的信息,全局的观测信息能够表征整个应用场景中的所有状态,局部的观测信息则表征整个应用场景中一部分的状态;;
执行阶段,由训练得到的学生模块中各值函数网络输入对应智能体当前时刻的局部观测信息,输出相应单智能体的状态动作值函数,选出状态动作值函数最大的动作执行。
2.根据权利要求1所述的一种多智能体强化学习方法,其特征在于,所述应用场景包括:交通车辆控制与计算机游戏场景;
其中,应用于交通车辆控制时,观测信息至少包括:速度信息、位置信息、以及与前后方车辆的距离;
应用计算机游戏场景时,观测信息包括如下信息中的若干种:游戏场景中己方游戏单位的位置、血量、视野范围内的己方游戏单位、敌方单位的位置和血量。
3.根据权利要求1或2所述的一种多智能体强化学习方法,其特征在于,所述教师模块中,值函数网络输入的是从系统中获取全局的观测信息,所述教师模块中所有,值函数网络获取的全局的观测信息是相同的;
其中,对于交通车辆控制场景,每一值函数网络用于控制一辆汽车,所述全局的观测信息包括:所有车辆的速度信息、位置信息、以及与前后方车辆的距离;
对于计算机游戏场景,每一值函数网络用于控制己方一个游戏单位,所述全局的观测信息包括如下信息中的若干种:游戏场景中己方所有游戏单位的位置、血量、所有视野范围内的己方单位和敌方单位的位置和血量。
4.根据权利要求1或2所述的一种多智能体强化学习,其特征在于,对所述学生模块中各值函数网络预先进行了分配,各值函数网络仅获取分配的用来表征应用场景中一部分的状态的观测信息;
其中,对于交通车辆控制场景,每一值函数网络用于控制一辆汽车;所述局部的观测信息包括:值函数网络控制的汽车的速度信息、位置信息、以及与前后方车辆的距离;
对于计算机游戏场景,每一值函数网络用于控制己方一个游戏单位,所述局部的观测信息包括如下信息中的若干种:游戏场景中控制的己方一个游戏单位的位置、血量、视野范围内的己方单位和敌方单位的位置和血量。
5.根据权利要求1所述的一种多智能体强化学习,其特征在于,所述训练阶段,教师模块和学生模块的参数通过迭代交互同时更新,教师模块中的混合网络采用输出的集中状态动作值函数的时序差分损失为约束进行优化;将学生模块与教师模块估计的状态动作值函数均方误差损失为约束进行学生模块参数学习。
6.一种多智能体强化学习系统,其特征在于,该系统包括:中心化的教师模块与去中心化的学生模块;教师模块与学生模块中包含相同数目的值函数网络,所述值函数网络为估计单智能体状态动作值函数的网络,对应应用场景中的一个智能体;所述教师模块中还设有将所有单智能体的状态动作值函数整合为集中的状态动作值函数的混合网络;
训练阶段,教师模块中各值函数网络输入当前时刻全局的观测信息以及相应值函数网络上一时刻得到的动作,输出单智能体状态动作值函数,所有的单智能体状态动作值函数输入至混合网络,混合网络对所有单智能体状态动作值函数加权混合得到集中状态动作值函数的过程,混合网络参数表达了集中状态动作值函数在当前状态下更依赖于某些单智能体状态动作值函数,即团队奖励更依赖于某些智能体的动作,通过训练中的梯度回传技术,隐式地完成了团队奖励分配;同时,学生模块中各值函数网络输入当前时刻局部的观测信息,以及教师模块中相应值函数网络上一时刻得到的动作,采用知识蒸馏机制令教师模块估计的状态动作值函数指导学生模块学习局部的状态动作值函数;其中,观测信息是表征当前应用场景状态的信息,全局的观测信息能够表征整个应用场景中的所有状态,局部的观测信息则表征整个应用场景中一部分的状态;
执行阶段,由训练得到的学生模块中各值函数网络各自根据对应编号的智能体的当前时刻的局部观测信息,输出单智能体的状态动作值函数,选出状态动作值函数最大的动作执行。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学技术大学,未经中国科学技术大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110863643.9/1.html,转载请声明来源钻瓜专利网。
- 上一篇:显示设备和声音产生器
- 下一篇:语音合成方法、装置、设备及可读存储介质