[发明专利]一种基于MAS-Q-Learing的任务分配方法有效

申请号：	202110664158.9	申请日：	2021-06-16
公开（公告）号：	CN113377655B	公开（公告）日：	2023-06-20
发明（设计）人：	王崇骏;张杰;乔羽;曹亦康;李宁	申请（专利权）人：	南京大学
主分类号：	G06F11/36	分类号：	G06F11/36;G06N20/00
代理公司：	南京瑞弘专利商标事务所(普通合伙) 32249	代理人：	彭雄
地址：	210093 江***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于 mas learing 任务分配方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种基于MAS‑Q‑Learing的任务分配方法，获取真实应用场景中的用户数据，采用马尔科夫决策对用户数据进行建模，将众包人员设计成智能体五元组，通过Q值学习方法计算他们的全局收益；对邻近智能体的状态以及下一状态进行定位，采用拉普拉斯矩阵用于描述各个智能体成员之间的关联关系，采用多属性决策方法进行计算，其计算结果再经过权重分配和集结。采用时间差分方法估计动作‑值函数，同时给出了满足合理性、完整性条件的智能体状态函数。本发明不仅具有良好的鲁棒性，而且具有良好的适应性。

技术领域

本发明涉及任务分配领域，主要应用在众包场景中，具体涉及到众包场景下复杂任务分配的成本优化问题。

背景技术

本发明的设计动力来源于当前众包中软件测试工作的新兴应用，一般的众测过程，在该众包过程中，任务分配不明确，众包工人众包工人无法得到个人收益最大化。

发明内容

发明目的：为了避免众包过程中任务分配不明确、众包工人无法得到个人收益最大化等问题，本发明提供一种基于MAS-Q-Learing的任务分配方法，本发明与传统离散数据结构的图不同，众包过程在时间维度上是连续的，因此需要可变和不确定的时间域来对智能体进行引导。使用了Q值学习方法并设计了知识共享机制，提高了模型的鲁棒性，通过允许各个智能体之间进行部分知识共享，其中大多数智能体彼此类似，并通过它们的集体状态相互影响，利用这种交互特性可以提高求解方案的可扩展性。其次，本发明针对小样本数据进行训练与求解，数据采用半监督的方式进行训练，对不确定性区域进行建模；并且我们的模型还能利用大型多智能体系统的对称性，将任务分配收敛成差分—凸函数规划问题，提高了算法的收敛性。最后，为了验证算法，在多智能体上开发的相关模拟器，将任务分配问题与爬山问题进行迁移学习，测试了不同规模的多智能体系统以及环境，表明本发明算法比传统的多智能体Q值学习效果更好。

技术方案：为实现上述目的，本发明采用的技术方案为：

一种基于MAS-Q-Learing的任务分配方法，包括如下步骤：

步骤1，数据采集：获取真实应用场景中的用户数据，用户数据包括用户产生的具有状态集、动作函数、选择概率和奖励函数的数据。

步骤2，数据预处理：采用马尔科夫决策对步骤1得到的用户数据进行建模，针对不同类型的任务对众包人员进行能力数据的归一化处理，将众包人员设计成智能体五元组，通过Q值学习方法计算他们的全局收益。

步骤3，状态转移：对邻近智能体的状态以及下一状态进行定位，以便利用邻近智能体的目标估计状态来辅助自身状态转移。邻居节点进行定位利用距离观测和邻居节点传递的信息计算出。

步骤4，多智能体系统建模：采用拉普拉斯矩阵用于描述各个智能体成员之间的关联关系，目的是构建一个多智能体系统内部各成员智能体进行信息交互的机制以及对应的拓扑模型，以此降低复杂问题的求解难度。

所述步骤4中多智能体系统建模如下：

步骤4a)，智能体系统包括两个以上的智能体，智能体系统的拓扑结构由表示，计算得到单个智能体的动力学方程以及边状态定义。

步骤4b)，更新单个智能体的动力学方程，然后计算得到对应的入度关联矩阵，由此推理得到拉普拉斯矩阵，建立信息反馈模型，进而获得智能体的信息交互反馈。

步骤4c)，获得多智能体系统中智能体之间的信息反馈模型后，接下来对多智能体系统进行模型降阶，基于生成树子图结构降低求解的复杂度。对生成树进行线性变换获得生成余树，作为多智能体系统的内反馈项，最终获得降阶后的多智能体系统模型。

步骤5，多属性决策阶段：首先给出决策矩阵，判断权重是否已知并确定权重，根据决策矩阵的属性值得出属性矩阵的集结算子，同时根据求解目标和决策矩阵的形式，选择相应的多属性决策方法进行计算，其计算结果再经过权重分配和集结，并根据最后各方案得分情况进行决策。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于南京大学，未经南京大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202110664158.9/2.html，转载请声明来源钻瓜专利网。

上一篇：基于图神经网络的用户-任务关联的众包任务推荐方法
下一篇：一种DV镜头和图像拾取装置

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F11-00 错误检测；错误校正；监控
G06F11-07 .响应错误的产生，例如，容错
G06F11-22 .在准备运算或者在空闲时间期间内，通过测试作故障硬件的检测或定位
G06F11-28 .借助于检验标准程序或通过处理作错误检测、错误校正或监控
G06F11-30 .监控
G06F11-36 .通过软件的测试或调试防止错误

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于MAS-Q-Learing的任务分配方法有效

专利文献下载