[发明专利]一种基于MAS-Q-Learing的任务分配方法有效
申请号: | 202110664158.9 | 申请日: | 2021-06-16 |
公开(公告)号: | CN113377655B | 公开(公告)日: | 2023-06-20 |
发明(设计)人: | 王崇骏;张杰;乔羽;曹亦康;李宁 | 申请(专利权)人: | 南京大学 |
主分类号: | G06F11/36 | 分类号: | G06F11/36;G06N20/00 |
代理公司: | 南京瑞弘专利商标事务所(普通合伙) 32249 | 代理人: | 彭雄 |
地址: | 210093 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 mas learing 任务 分配 方法 | ||
1.一种基于MAS-Q-Learing的任务分配方法,其特征在于,包括如下步骤:
步骤1,数据采集:获取真实应用场景中的用户数据,用户数据包括用户产生的具有状态集、动作函数、选择概率和奖励函数的数据;
步骤2,数据预处理:采用马尔科夫决策对步骤1得到的用户数据进行建模,针对不同类型的任务对众包人员进行能力数据的归一化处理,将众包人员设计成智能体五元组,通过Q值学习方法计算他们的全局收益;
步骤2中数据预处理方法如下:
步骤2a) ,将众包人员设计成智能体五元组: ,其中,为状态,为动作函数,为选择概率, 为折扣因子,,为奖励函数;
步骤2b) ,当处于某一时刻时,智能体处于状态,从策略集中选取策略并生成动作函数,此时按照概率转移到下一状态 ,依此类推,遍历状态后,得到该智能体的全局收益;
步骤3,状态转移:对邻近智能体的状态以及下一状态进行定位,以便利用邻近智能体的目标估计状态来辅助自身状态转移;邻居节点进行定位利用距离观测和邻居节点传递的信息计算出;
步骤4,多智能体系统建模:采用拉普拉斯矩阵用于描述各个智能体成员之间的关联关系,目的是构建一个多智能体系统内部各成员智能体进行信息交互的机制以及对应的拓扑模型,以此降低复杂问题的求解难度;
多智能体系统建模方法如下:
步骤4a) ,智能体系统包括两个以上的智能体,智能体系统的拓扑结构由表示,计算得到单个智能体的动力学方程以及边状态定义;
步骤4b) ,更新单个智能体的动力学方程,然后计算得到对应的入度关联矩阵,由此推理得到拉普拉斯矩阵,建立信息反馈模型,进而获得智能体的信息交互反馈;
步骤 4c), 获得多智能体系统中智能体之间的信息反馈模型后,接下来对多智能体系统进行模型降阶,基于生成树子图结构降低求解的复杂度;对生成树进行线性变换获得生成余树,作为多智能体系统的内反馈项,最终获得降阶后的多智能体系统模型;
步骤5,多属性决策阶段:首先给出决策矩阵,判断权重是否已知并确定权重,根据决策矩阵的属性值得出属性矩阵的集结算子,同时根据求解目标和决策矩阵的形式,选择相应的多属性决策方法进行计算,其计算结果再经过权重分配和集结,并根据最后各方案得分情况进行决策;
多属性决策阶段方法如下:在转移概率模型未知的条件下求解马尔科夫决策过程问题,设定状态,动作,奖励函数,转移概率,其马尔科夫性为,其中st表示在t时间的状态,表示在t时间的行为;模型的优化目标为,表示常数,表示在状态下的概率,利用强化学习方法在未知情况下求解马尔科夫决策过程问题,采用时间差分方法估计动作-值函数;
步骤6,方法优化阶段:采用时间差分方法估计动作-值函数,同时给出了满足合理性、完整性条件的智能体状态函数。
2.根据权利要求1所述基于MAS-Q-Learing的任务分配方法,其特征在于:所述步骤3中状态转移方法如下:
步骤3a) ,首先对智能体相对临近智能体的欧式距离进行推导,得到智能体在智能体下局部坐标系的相对估计位置,得到距离观测;
步骤3b),利用步骤3a)获得的距离观测和邻居节点传递的信息对邻居节点进行定位。
3.根据权利要求2所述基于MAS-Q-Learing的任务分配方法,其特征在于:智能体状态满足完整性条件包括智能体决策需要的所有信息。
4.根据权利要求3所述基于MAS-Q-Learing的任务分配方法,其特征在于:对于智能体的动作根据施加控制量的数值特点设计离散或连续的动作值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京大学,未经南京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110664158.9/1.html,转载请声明来源钻瓜专利网。