[发明专利]一种面向时间约束的多智能体的调度方法有效
申请号: | 202110810946.4 | 申请日: | 2021-07-19 |
公开(公告)号: | CN113269297B | 公开(公告)日: | 2021-11-05 |
发明(设计)人: | 朱晨阳 | 申请(专利权)人: | 东禾软件(江苏)有限责任公司 |
主分类号: | G06N3/00 | 分类号: | G06N3/00;G06N20/00 |
代理公司: | 常州唯思百得知识产权代理事务所(普通合伙) 32325 | 代理人: | 孙丽 |
地址: | 213000 江苏省常州市西太湖科技*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 面向 时间 约束 智能 调度 方法 | ||
本发明涉及一种面向时间约束的多智能体的调度方法,步骤如下:建立调度中心;调度中心采集多智能体和随机环境的状态和动作的实时数据;调度中心对采集的数据进行处理,将动作指令发送给多智能体;本发明通过在随机博弈模型中引入时间约束,可以描述多智能体之间或者多智能体与随机环境交互过程中表现出的实时性、非确定性和概率行为,还可以量化与时间相关的奖励函数,通过奖励函数确定多目标优化策略;根据设计的算法提高计算模型最大奖励期望的效率以及基于权重组合的帕累托曲线拟合效率,从而提高了多智能体的反应速度;通过对多个目标赋予不同的权重,区分目标的优先级,从而提高了多智能体运行的可靠性。
技术领域
本发明涉及多智能体交互技术领域,特别涉及一种面向时间约束的多智能体的调度方法。
背景技术
随着多智能体(机器人、机器狗或无人机等)之间的交互日益密切,交互时产生的错误也随着多智能体系统的规模和复杂度的增加而不断增加。如何设计多智能体的调度系统,使其在不确定环境以及相应的时间约束下满足多目标设计需求成为了眼下迫切需要解决的关键科学问题。
目前对多智能体的调度系统的研究主要通过模型检验的方法验证模型的量化属性以及奖励函数相关的属性,并通过值迭代的方法逼近模型的帕累托最优。然而对于面向时间约束的多智能体调度的多目标优化仍存在以下问题尚未解决:
(1)采用模型检验需要对多智能体和随机环境的状态空间进行穷举搜索,而随着并发分量的增加,模型的状态数目会呈指数增长,从而导致状态空间爆炸的问题;
(2)在面向时间约束的随机博弈模型中奖励函数可能是对时间的积分,而在运行时间不确定的情况下,奖励函数也是可变的,所以基于模型的值迭代和策略迭代算法不适用于此种场景;
(3)在组合多智能体的多个目标策略时缺少对目标优先级差异性的描述,缺少权衡基于权重组合的多目标优化策略的研究。
发明内容
本发明的目的是克服现有技术存在的缺陷和不足,提供一种理念先进,可靠性高以及速度快的面向时间约束的多智能体的调度方法。
实现本发明目的的技术方案是:一种面向时间约束的多智能体的调度方法,步骤如下:
S1.建立调度中心,具体为:
S11.基于面向时间约束的多目标随机博弈模板建立面向时间约束的多智能体协同采集标本并运输的随机博弈模型;
S12.根据统计模型检验模拟随机博弈模型的运行轨迹,设计不基于模型的值函数学习方法计算多智能体在不同的任务点采集标本或进行标本处理,然后运输到目标点的最大奖励期望,奖励包括任务进行时间、总体能耗和任务完成度;
S13.根据多智能体之间的随机博弈的收敛条件对算法进行迭代;
S14.对奖励赋予权重,计算其加权和,根据凸优化的超平面分离定理对基于权重组合的多目标帕累托曲线进行拟合,生成多智能体协同采集样本并运输的最优任务调度策略;
S2.调度中心采集多智能体和随机环境的状态和动作的实时数据;
S3.调度中心对采集的数据进行处理,将动作指令发送给多智能体。
进一步地,步骤S11具体为:
S111.面向时间约束的多目标随机博弈模板为一个十元组其中:
П表示参与随机博弈的参与方多智能体和随机环境的有限集合;
L表示多智能体和随机环境的状态的有限集合;
表示多智能体和随机环境的初始状态,
Si表示某个智能体或随机环境i的状态的有限集合,i∈Π;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东禾软件(江苏)有限责任公司,未经东禾软件(江苏)有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110810946.4/2.html,转载请声明来源钻瓜专利网。