[发明专利]一种基于策略空间响应先知的课程学习方法在审

申请号：	202210864825.2	申请日：	2022-07-21
公开（公告）号：	CN115131184A	公开（公告）日：	2022-09-30
发明（设计）人：	余宏翔;温颖	申请（专利权）人：	上海交通大学
主分类号：	G06Q50/20	分类号：	G06Q50/20;G06K9/62;G06F17/18
代理公司：	上海旭诚知识产权代理有限公司 31220	代理人：	郑立
地址：	200240 ***	国省代码：	上海;31
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于策略空间响应先知课程学习方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种基于策略空间响应先知(PSRO)的课程学习方法，涉及课程学习领域。由两个智能体组成：自主智能体和环境智能体。自主智能体学习在环境智能体生成的环境分布中获得高奖励值，环境智能体根据自主智能体策略池的表现不断的调整自身策略并生成新的环境，引导自主智能体不断增强自身策略强度和广泛性。两个智能体维持各自的策略池，使用策略空间响应先知的范式进行训练，最终可收敛到纳什均衡点。自主智能体通过本发明可以获得具有更强泛化性的策略池，在众多和训练相似的环境下能取得良好的表现。

技术领域

本发明涉及课程学习领域，尤其涉及一种基于策略空间响应先知的课程学习方法。

背景技术

在机器学习的发展历程中，人类学习(human learning)激发了各种算法设计。课程作为人类学习的一个突出特征，已逐渐形成了一个子学科。课程学习是一种训练策略，其通过模拟人类课程中有益的学习顺序，对机器学习模型的数据或任务进行排序，通常是从简单到困难[1]。受益于其简单易用的性质和近年来计算资源、数据样本规模的大幅提升，课程学习策略在计算机视觉、自然语言处理、强化学习等场景中取得了广泛的应用。

协同进化(co-evolution)是一种多智能体的课程学习方法，在该方法中，课程是由多个智能体(教师-学生模型)[2]或者同一智能体的多个版本(自博弈self-play)[3]在同一环境中的交互产生的，这些智能体的行动可能是合作或竞争的，可能是既合作又竞争的。通过这些智能体之间的交互产生隐式课程，不断的提升智能体的策略强度。

目前针对协同进化的课程学习方法已有不少工作，主要集中在三个问题上：1)如何保证算法收敛性。2)如何提升算法效率，降低算法实现难度。3)如何提升智能体最终表现。

协同进化涉及到多智能体之间的交互，因此通常会用博弈论的知识和理论使其收敛/逼近纳什均衡点。Dennis等人提出了一种基于最大最小化后悔值的教师-学生模型[4]，后悔值为教师智能体在环境中的奖励值减去学生智能体在环境中的奖励值，环境和教师目标为最大化后悔值，而学生目标为最小化后悔值。通过这种方法，学生可以不断的提升自身的能力，最终收敛至纳什均衡点。但该方法的一个重大缺陷是，该方法非常依赖于教师智能体的能力，而在稀疏奖励且复杂的环境下训练一个高强度的教师智能体是一件很困难的事情。

Wang等人提出了一种基于进化算法的模型[5]，该模型由若干智能体-环境对组成，主要流程有三步：1)对现有环境做随机扰动生成新的环境，并过滤掉奖励值不符合要求的环境。2)智能体在其对应的环境中进行学习。3)在智能体之间做参数迁移，将强的智能体参数迁移到弱的智能体上。该方法虽然可以获得良好的表现，但资源消耗很大，效率低下，且需要大量关于环境的先验知识，可迁移性差。

Jiang等人使用优先级队列进行层次回放[6]，该方法使用强化学习中的时序差分(temporal difference)作为后悔值的近似，并结合时序差分和访问频率设定优先级，将后悔值符合条件的环境参数放入回放池。每次训练时以一定概率从回放池中按照优先级选取环境参数，或者从环境参数空间随机选取，并更新对应的后悔值，如果满足要求则放入回放池。该方法简单易用，但不太适合复杂环境。

现有方法无法较好的同时解决上述三个问题，因此需要研究新的课程学习方法，在保证收敛性的同时提高算法的效率和表现。

在博弈论领域中，策略空间响应先知[7]是一个应用非常广泛的范式。它主要由三步组成：1)收益矩阵评估。2)根据收益矩阵计算元策略。3)各智能体对其余智能体的元策略做最佳应对生成新策略，并将新策略放入策略池中。策略空间响应先知是基于种群的训练方式，训练效率高，另外它有收敛到纳什均衡的理论性质，这两点都满足我们的需要。需要注意的是，策略空间响应先知使用的智能体是传统意义上的智能体，不是环境智能体，因此若要将其应用到课程学习上，需额外进行一些修改。

因此，本领域的技术人员致力于开发一种基于策略空间响应先知的课程学习方法。在保证收敛性的同时提高算法的效率和表现。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于上海交通大学，未经上海交通大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202210864825.2/2.html，转载请声明来源钻瓜专利网。

上一篇：电磁脉冲焊点金属间化合物动态生长模拟方法
下一篇：氨法磷酸铁生产废水资源化处理装置及方法

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06Q 专门适用于行政、商业、金融、管理、监督或预测目的的数据处理系统或方法；其他类目不包含的专门适用于行政、商业、金融、管理、监督或预测目的的处理系统或方法
G06Q50-00 专门适用于特定经营部门的系统或方法，例如公用事业或旅游
G06Q50-02 .农业；渔业；矿业
G06Q50-04 .制造业
G06Q50-06 .电力、天然气或水供应
G06Q50-08 .建筑
G06Q50-10 .服务

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于策略空间响应先知的课程学习方法在审

专利文献下载