[发明专利]机器学习系统在审
申请号: | 201910438632.9 | 申请日: | 2019-05-24 |
公开(公告)号: | CN110533189A | 公开(公告)日: | 2019-12-03 |
发明(设计)人: | 商文龄;D.范德瓦尔;H.范胡夫;M.韦林 | 申请(专利权)人: | 罗伯特·博世有限公司 |
主分类号: | G06N20/00 | 分类号: | G06N20/00 |
代理公司: | 72001 中国专利代理(香港)有限公司 | 代理人: | 刘书航;申屠伟进<国际申请>=<国际公布 |
地址: | 德国斯*** | 国省代码: | 德国;DE |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 处理单元 中间数据 处理路径 前馈神经网络 输出数据 输出路径 机器学习系统 生成处理 输出单元 输出 | ||
本发明涉及机器学习系统(10)。它被描述为给处理单元提供(110)输入数据。处理单元处理(120)输入数据以生成处理路径输入数据。处理单元实现(130)包括前馈神经网络的第一处理路径以处理所述处理路径输入数据以生成第一中间数据。处理单元实现(140)包括前馈神经网络的第二处理路径以处理所述处理路径输入数据以生成第二中间数据,其中第二处理路径是随机的。处理单元实现(150)包括前馈神经网络的价值输出路径以处理第一中间数据和第二中间数据以生成价值输出数据。处理单元实现(160)包括前馈神经网络的策略输出路径以处理第一中间数据和第二中间数据以生成策略输出数据。输出单元输出(170)价值输出数据和策略输出数据。
技术领域
本发明涉及机器学习系统,以及实现机器学习系统的方法。
背景技术
强化学习(RL)是为了从经验学习用于物理设备或者软件系统的近似最优控制策略而开发的机器学习框架。在RL中,控制器(也被称为智能体(agent))需要探索要被控制的可用状态和动作的空间,并且接收指示所服从的策略的成功的所谓的奖励信号。重要地,无论所采取的每一单个动作为最优与否,奖励都典型地不立即有信号表现,而是可能只有在一系列动作之后才在具有延迟的情况下或者以随机方式被给出。因此,需要解决困难的信度分配问题,其决定先前采取的动作中的哪个应当被记为用来奖励(如果采取了错误的动作,则奖励也可能是负面的)。RL算法的主要目标是:
• 针对控制问题寻求最佳的可能策略,即实现最大整体奖励的策略;以及
• 通过智能探索策略尽可能快地学习这样的最优策略,即,在不冒大的负面奖励(其可能例如对应于对所控制的物理系统的损害)的风险的情况下尝试具有未知结果的动作,并且使所获得gain的关于要被控制的系统的信息最大化。
虽然一般的强化学习算法已经被已知悉数十年,但是其仅在近些年才已经变得有可能应对非常困难的场景,所述场景的特征在于非常大或者甚至连续(并且因此无限大)的状态和动作空间,以及要被控制的系统的复杂动态。早期的RL算法基于如下的假设:能够经常任意地探索每个状态—动作对,并且能够学习从每个可能的状态或者针对状态—动作对来估计可行的预期奖励的价值函数。然而,这种构想仅针对离散空间有用,并且对于在此感兴趣的非常大的状态和动作空间而言变得不可行。一个主要的突破是RL与深度学习的组合,已知为深度RL(Deep RL)。这种构想使用深度神经网络(DNN)来学习高维状态信号的有意义的抽象,和/或使用DNN来近似策略和价值函数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于罗伯特·博世有限公司,未经罗伯特·博世有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910438632.9/2.html,转载请声明来源钻瓜专利网。