[发明专利]一种多智能体系统的网络参数更新方法、装置及终端设备在审
申请号: | 202011364310.3 | 申请日: | 2020-11-27 |
公开(公告)号: | CN112465148A | 公开(公告)日: | 2021-03-09 |
发明(设计)人: | 陈广勇;董一臻;郝建业;王琼;王平安 | 申请(专利权)人: | 中国科学院深圳先进技术研究院 |
主分类号: | G06N20/00 | 分类号: | G06N20/00 |
代理公司: | 深圳中一联合知识产权代理有限公司 44414 | 代理人: | 唐佳芝 |
地址: | 518000 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 智能 体系 网络 参数 更新 方法 装置 终端设备 | ||
本申请适用于人工智能技术领域,提供了一种多智能体系统的网络参数更新方法、装置及终端设备,通过整个智能体系统的新颖性参数来确定整体内部奖励,然后基于各个智能体的贡献程度来确定每个智能体的局部内部奖励,再结合外部奖励来对确定每个智能体的网络更新参数,既从全局角度确定了内部奖励使得多智能体系统对全局状态空间的搜索更加全面,由根据每个智能体对整体新颖性参数的贡献程度确定智能体的内部奖励,充分考虑到了不同的智能体的探索能力的不同,减少重复、冗余的探索,加快训练速度,提升任务的完成效率。
技术领域
本申请属于人工智能技术领域,尤其涉及一种多智能体系统的网络参数更 新方法、装置及终端设备。
背景技术
人工智能是研究开发用于模拟、扩展人的智能的理论、方法、技术及应用 的技术科学。人工智能研究的一个主要目标是由智能体(Agent)进行学习模拟人 类决策,从而胜任一些需要人类智能才能完成的复杂工作。单个智能体的功能 有限,无法应对复杂的任务,这推动了多智能体系统概念的产生。多智能体系 统由多个能够自主决策、互相交互的智能体相结合组成,它们共享同一个环境, 具有感知与执行机制。目前,多智能体系统已经成为人工智能领域的研究热点。
在协作型多智能体任务中,只有当多智能体联合完成一个任务后,才能够 获得一个外部奖励。对于没有进行过探索或探索次数的环境,如何有效地提高 探索效率是目前多智能体系统的训练过程中亟需解决的问题。对于上述问题, 目前通常是将多智能体系统看做一个整体,然后基于全局的状态新颖性参数程 度来确定每个智能体的局部信息,再基于各个智能体的局部信息来对每个智能 体的网络参数进行更新。使得更新了网络参数的多智能体系统能够最终决策出 最优的协同控制策略。然而这种方式没有考虑每个智能体的独特性,容易产生 冗余的探索行为,降低了合作任务的完成效率。
发明内容
有鉴于此,本申请实施例提供了一种多智能体系统的网络参数更新方法、 装置及终端设备,以解决目前基于深度学习的病虫害种类识别系统无法全面且 准确地识别出果树的病虫害种类的问题。
第一方面,本申请实施例提供一种多智能体系统的网络参数更新方法,包 括:
根据多智能体系统的新颖性参数确定整体内部奖励;
根据整体内部奖励和每个智能体的贡献程度确定每个智能体的局部内部奖 励;
获取每个智能体的外部奖励;
根据每个智能体的局部内部奖励和外部奖励确定各个智能体的网络更新参 数,并将各个智能体的网络更新参数下发至各个智能体中,所述网络更新参数 用于控制各个智能体根据网络更新参数对自身的网络进行训练。
可选的,根据多智能体系统的新颖性参数确定整体内部奖励,包括:
根据当前时刻下多智能体在联合状态下采取联合动作的次数确定多智能体 系统的新颖性参数;
基于多智能体系统的新颖性参数确定整体内部奖励。
可选的,根据多智能体系统的新颖性参数确定整体内部奖励,包括:
根据预测误差来确定多智能体系统的新颖性参数;
基于多智能体系统的新颖性参数确定整体内部奖励。
可选的,根据多智能体系统的新颖性参数确定整体内部奖励,包括:
基于后继特征来确定多智能体系统的新颖性参数;
再基于多智能体系统的新颖性参数确定整体内部奖励。
可选的,根据整体内部奖励和每个智能体的贡献程度确定每个智能体的局 部内部奖励,包括:
根据每个智能体的优势函数来确定每个智能体的贡献程度;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院深圳先进技术研究院,未经中国科学院深圳先进技术研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011364310.3/2.html,转载请声明来源钻瓜专利网。