[发明专利]基于多任务学习的决策方法、决策模型训练方法及装置在审
申请号: | 202010660005.2 | 申请日: | 2020-07-09 |
公开(公告)号: | CN111950726A | 公开(公告)日: | 2020-11-17 |
发明(设计)人: | 开昰雄;王滨;刘武龙;庄雨铮 | 申请(专利权)人: | 华为技术有限公司 |
主分类号: | G06N3/08 | 分类号: | G06N3/08;G06K9/62;G06F30/27;G08G1/16 |
代理公司: | 广州三环专利商标代理有限公司 44202 | 代理人: | 熊永强;李稷芳 |
地址: | 518129 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 任务 学习 决策 方法 模型 训练 装置 | ||
本申请公开了人工智能领域的一种基于多任务学习的决策方法、决策模型训练方法及装置,决策模型训练方法包括:随机从第一样本数据库中获取多个样本数据,第一样本数据库中包括多个候选任务的样本数据,目标任务的样本数据包括目标任务对应的任务向量,目标任务对应的任务向量是基于多个候选任务中的共性子任务和特性子任务得到的,目标任务为多个候选任务中的任一个;根据多个样本数据调整决策模型Mt中的参数,以得到决策模型Mt+1;判断决策模型Mt+1是否收敛;当决策模型Mt+1收敛时,确定所述决策模型Mt+1为目标决策模型。采用本申请实施例提高了决策模型的决策效果和收敛能力,并避免了多任务之间的相互影响。
技术领域
本申请涉及人工智能领域,尤其涉及一种基于多任务学习的决策方法、决策模型训练方法及装置。
背景技术
强化学习是人工智能领域的一个重要分支,并在某些特定任务的完成能力已经超过了普通人类。但是对于强化学习算法,通常一次训练后得到的模型只能针对一个特定的任务,如果要应用于另一个新的任务需要重新进行训练得到新的模型。这意味着训练算法虽然具有一般性,但是学到的模型只能应用于特定的任务场景。
随着强化学习算法在工业界的应用越来越多,很多应用场景不仅限于需要强化学习模型能够处理单一任务,而是需要模型能够在多任务场景下取得较好的效果。多个任务意味着强化学习算法需要学习多个马尔科夫模型,但是状态转移概率不唯一可能会导致强化学习算法收敛效果不好,甚至无法收敛。并且由于不同任务的奖励机制不同,可能导致一个简单任务学习很快主导模型效果,对其他稀疏奖励的任务探索不足,从而学习效果不均衡,模型整体效果较差。针对上述问题,亟需一种能够同时学习多个任务的强化学习算法。
现有的一种解决方案是:在单一学习算法中平衡有限的资源来满足多任务的学习,许多学习算法都会因为权衡多个任务而导致效果变差。例如在学习过程中,一些任务的奖励值较大,使得算法以牺牲通用性为代价,专注于那些奖励值突出的任务,从而导致其他任务无法取得较好的效果;也有算法是通过奖励削减的方式来统一各个任务的奖励值大小,这种做法可能会改变优化目标,如果奖励值都是较大的非负值,那么削减后就变为优化获得奖励的频率而不是累计期望奖励。并且算法在任务间的平衡不仅取决于奖励值大小,还取决于奖励密度,奖励削减依然会导致算法在不同任务中的不平衡。
另一种解决方案被称作基于蒸馏的学习:主要是构建一个学生网络通过有监督的学习多个特定任务的专家网络,这种学习算法提供了一个多任务策略妥协的结果,并且每个专家网络需要提前进行大规模的训练来获得。这种学习算法虽然避免了奖励值不平衡的问题,但是依然是在多个任务中间进行平衡,学习效果不理想,并且其性能被专家网络所限制没法进一步提高。
发明内容
本申请实施例提供一种基于多任务学习的决策方法、决策模型训练方法及装置,在本申请实施例的方案中,通过对任务进行联合表征,得到由特性子任务和共性子任务得到的任务向量,在模型训练时,可避免了多个任务之间的相互影响,并且通过共性子任务能够促进多个任务的策略学习,通过特性子任务进行任务的针对性学习,提升多任务策略效果和模型的收敛速度;在决策时,可以使用同一模型对多个任务进行决策,避免了多个任务间的相互影响。
第一方面,本申请实施例提供一种基于多任务学习决策模型的训练方法,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华为技术有限公司,未经华为技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010660005.2/2.html,转载请声明来源钻瓜专利网。