[发明专利]多任务神经网络系统在审
申请号: | 201880028533.7 | 申请日: | 2018-05-22 |
公开(公告)号: | CN110892418A | 公开(公告)日: | 2020-03-17 |
发明(设计)人: | 拉兹万·帕什卡努;拉亚·泰·哈德塞尔;维克托·康斯坦特·巴波斯特;沃伊切赫·恰尔内茨基;詹姆斯·柯克帕特里克;伊·怀易·泰赫;尼古拉斯·曼弗雷德·奥托·黑斯 | 申请(专利权)人: | 渊慧科技有限公司 |
主分类号: | G06N3/04 | 分类号: | G06N3/04;G06N3/00;G06N3/08 |
代理公司: | 中原信达知识产权代理有限责任公司 11219 | 代理人: | 李佳;邓聪惠 |
地址: | 英国*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 任务 神经网络 系统 | ||
1.一种训练多任务神经网络系统的方法,所述神经网络系统包括与共享策略网络结合的可训练工作器集合,所述方法包括:
在多个不同任务上对所述可训练工作器和所述共享策略网络进行协同训练,使得每个工作器学习根据相应的任务策略执行所述任务中的一个对应任务并且所述共享策略网络学习表示针对所述任务的共同行为的多任务策略;以及
其中,所述协同训练包括:通过所述共享策略网络和所述可训练工作器二者传播来自所述协同训练的错误。
2.根据权利要求1所述的方法,所述方法其中,所述协同训练通过优化目标函数来执行,所述目标函数针对每个任务包括:
奖励项,所述奖励项指示工作器在根据所述任务策略执行所述任务时所获得的期望奖励;以及
至少第一熵项,所述至少第一熵项测量所述任务策略的分布与所述多任务策略的分布之间的差异,以朝着所述多任务策略的分布来将所述任务策略的分布正则化。
3.根据权利要求2所述的方法,其中,所述目标函数针对每个任务进一步包括第二探索熵项,所述第二探索熵项取决于所述任务策略的分布以鼓励探索。
4.根据权利要求1、2或3所述的方法,其中,所述神经网络系统包括强化学习系统,所述强化学习系统用于选择由所述工作器中的一个或多个在与环境交互时要执行的动作,其中,所述任务包括动作的序列,所述动作中的每个动作响应于状态而被执行,以及其中,所述任务策略中的每个任务策略的相应分布和所述多任务策略的分布各自包括状态-动作分布。
5.根据权利要求4所述的方法,当引用权利要求2时,其中,所述奖励项是取决于在状态下采取动作得到的期望奖励的折扣奖励项。
6.根据权利要求1至5中任一项所述的方法,包括:在训练所述可训练工作器时,使用来自所述共享策略网络的所述多任务策略来确定用于所述可训练工作器的所述任务策略。
7.根据权利要求1至6中任一项所述的方法,其中,所述协同训练包括:在训练所述可训练工作器中的一个或多个可训练工作器与训练所述共享策略网络之间交替。
8.根据权利要求1至7中任一项所述的方法,其中,所述协同训练包括:联合优化所述共享策略网络的所述多任务策略和一个或多个所述任务策略。
9.根据权利要求1至8中任一项所述的方法,进一步包括:使用所述多任务策略对所述任务策略进行参数化。
10.根据权利要求1至9中任一项所述的方法,其中,所述可训练工作器包括一个或多个神经网络,并且所述协同训练包括:通过反向传播来联合训练所述一个或多个神经网络和所述共享策略网络。
11.根据权利要求10所述的方法,其中,所述反向传播使用目标函数,所述目标函数包括用于将来自所述任务策略的概率与来自所述多任务策略的概率相匹配以从所述任务策略提取所述多任务策略的项。
12.一种训练自适应多任务计算机系统的方法,所述计算机系统包括可训练工作器集合和共享模块,所述方法包括:
在多个不同任务上对所述可训练工作器和所述共享模块进行协同训练,使得每个工作器学习根据相应的任务策略执行所述任务中的一个对应任务并且所述共享策略网络学习表示针对所述任务的共同行为的多任务策略;以及
其中,所述协同训练通过优化目标函数来执行,所述目标函数针对每个任务包括:
奖励项,所述奖励项指示工作器在执行所述任务时所获得的期望奖励;以及
至少第一熵项,所述至少第一熵项测量所述任务策略的分布与所述多任务策略的分布之间的差异,以朝着所述多任务策略的分布来将所述任务策略的分布正则化。
13.根据权利要求12所述的方法,其中,所述目标函数针对每个任务进一步包括第二探索熵项,所述第二探索熵项取决于所述任务策略的分布以鼓励探索。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于渊慧科技有限公司,未经渊慧科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201880028533.7/1.html,转载请声明来源钻瓜专利网。