[发明专利]多任务神经网络系统在审
申请号: | 201880028533.7 | 申请日: | 2018-05-22 |
公开(公告)号: | CN110892418A | 公开(公告)日: | 2020-03-17 |
发明(设计)人: | 拉兹万·帕什卡努;拉亚·泰·哈德塞尔;维克托·康斯坦特·巴波斯特;沃伊切赫·恰尔内茨基;詹姆斯·柯克帕特里克;伊·怀易·泰赫;尼古拉斯·曼弗雷德·奥托·黑斯 | 申请(专利权)人: | 渊慧科技有限公司 |
主分类号: | G06N3/04 | 分类号: | G06N3/04;G06N3/00;G06N3/08 |
代理公司: | 中原信达知识产权代理有限责任公司 11219 | 代理人: | 李佳;邓聪惠 |
地址: | 英国*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 任务 神经网络 系统 | ||
提出了一种用于训练诸如多任务神经网络系统等的多任务计算机系统的方法。所述系统包括可训练工作器集合和共享模块。对多个不同任务训练所述可训练工作器和所述共享模块,使得各个工作器学习根据相应的任务策略执行所述任务中的一个对应任务并且使得所述共享策略网络学习表示针对所述任务的共同行为的多任务策略。通过优化目标函数来执行所述协同训练,所述目标函数针对每个任务包括:奖励项,所述奖励项指示工作器在根据所述任务策略执行所述对应任务所获得的期望奖励;以及至少一个熵项,所述至少一个熵项朝着所述多任务策略的分布正则化所述任务策略的分布。
本申请是2017年5月19日提交的美国临时专利申请第62/508,991号的非临时申请并且要求其优先权,该申请的全部内容以引用的方式并入本文。
背景技术
本说明书涉及训练神经网络以执行多个任务的方法,并且涉及用于执行多个任务的自适应计算机系统,诸如神经网络系统。
神经网络是采用一层或者多层非线性单元针对接收到的输入来预测输出的机器学习模型。一些神经网络是除了输出层之外还包括一个或者多个隐藏层的深度神经网络。各个隐藏层的输出被用作网络中的下一层(即,下一个隐藏层或者输出层)的输入。网络的各个层根据相应参数集的当前值从接收到的输入生成输出。
本文描述的一些技术应用在强化学习领域中。在强化学习系统中,代理通过执行由强化学习系统响应于接收到的表征环境的当前状态的观察结果而选择的动作来与环境交互。一些强化学习系统根据神经网络的输出,响应于接收到给定的观察结果,选择由代理执行的动作。
发明内容
本说明书描述了一种自适应系统,诸如神经网络系统,其被实现为在一个或多个位置处的一个或多个计算机上的用于执行多个不同任务的计算机程序、以及用于训练系统执行这些任务的方法。优选地,任务是相关的,系统的相应部分可以然后学习共享行为和任务特定行为。知识可以在系统的这些部分之间共享。
工作器可以与对应的任务或任务组相关联。与每个任务或任务组相关联的工作器被设置为执行该任务或该任务组。系统可以针对每个任务采用和/或生成至少一个相应的“任务策略”,该“任务策略”指示与该任务相关联的工作器应如何执行该任务。如果每个策略只有一个工作器,则可以将其等效地视为“工作器策略”。如果有与任务中的一个给定任务相关联的多个工作器,则他们可以共享该任务的任务策略(即,该任务策略被用作那些多个工作器中的每个工作器的工作器策略),或者多个工作器中的每个工作器可以具有作为用于该任务的任务策略的相应的工作器策略。
系统的共享或共同部分可以学习多任务策略。共享部分可以是但不一定是神经网络。
根据策略之间的距离的量度,任务策略可以紧跟着共同的多任务策略;例如,多任务策略可以限定任务策略的质心。任务策略可以但不必使用相应的神经网络来实现。它们可以但不必基本上彼此独立地运行。
在一个示例中,系统可以是强化学习系统的一部分。任务可以包括对作用于一个或多个环境(例如,相同环境或相应环境)上或内的相应代理(“工作器”)的控制。系统可以输出用于选择动作以供代理执行的数据(“动作数据”)。例如,系统可以输入数据以观察或另外接收与环境的状态有关的数据,并且基于观察到的状态可以确定要执行的动作。每个环境可以是真实的或模拟的。可以使用一个或多个任务策略来生成用于选择要执行的动作的数据。每个任务策略可以指定针对观察到的状态要执行的动作,或者可以指定可以从中获取针对观察到的状态要执行的动作作为样本的分布。
尽管系统可以是强化学习系统的一部分,但是它也可以不是。例如,所描述的技术可以例如使用具有卷积的前馈网络来应用于诸如图像或视频识别或分类等任务。通常,系统可以被配置为接收任何种类的数字数据输入,并基于该输入生成任何种类的分值、分类或回归输出。
例如,如果神经网络的输入是图像或已经从图像中提取的特征,则神经网络针对给定图像生成的输出可以是针对一组对象类别中的每个类别的分值,每个分值表示图像包含属于该类别的对象的图像的估计似然。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于渊慧科技有限公司,未经渊慧科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201880028533.7/2.html,转载请声明来源钻瓜专利网。