[发明专利]用于强化学习的方法和设备有效
申请号: | 201480055621.8 | 申请日: | 2014-10-07 |
公开(公告)号: | CN105637540B | 公开(公告)日: | 2021-08-03 |
发明(设计)人: | 沃洛季米尔·姆尼赫;科拉伊·卡武克曲奥卢 | 申请(专利权)人: | 渊慧科技有限公司 |
主分类号: | G06N3/04 | 分类号: | G06N3/04;G06N3/08;G06N20/00 |
代理公司: | 中原信达知识产权代理有限责任公司 11219 | 代理人: | 周亚荣;邓聪惠 |
地址: | 英国*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 强化 学习 方法 设备 | ||
我们描述一种强化学习的方法,其用于具有多个状态和从一个状态移动到下一个状态的动作的主题系统。训练数据通过以一系列动作在系统上操作而生成,且用于训练第二神经网络。用于训练第二神经网络的目标值从第一神经网络得出,该第一神经网络通过每隔一段时间复制第二神经网络的权重而生成。
本申请基于并主张2013年10月8日提交的美国临时申请No.61/888,247的优先权,通过引用将其全部内容合并于此。
技术领域
本发明涉及用于强化学习的改进技术,尤其是Q学习,并涉及数据处理器和处理器控制代码。
背景技术
一般而言,强化学习与监督学习的不同在于,不出现正确的输入输出对,而是机器(软件代理)学习在某些环境中采取动作,将某些形式的奖励最大化或者将成本最小化。采取动作将环境/系统从一个状态移转(move)到另一个状态,并且在Q学习的特定情况下,计算状态动作组合的质量,这描述可用于确定动作的期望效用的动作值函数。在“Q-learning”(Machine learning,vol 8,pages 279-292,1992,Watkins,Christopher JCHand Dayan,Peter,并且例如在WikipediaTM上方便地总结)中描述了Q学习算法。
尽管如此,学习直接根据高维度传感输入,诸如视觉和语言,来控制软件代理是强化学习(RL)的一个长期挑战。在这些领域中操作的大多数成功的RL应用依赖与线性政策函数组合的手工制作特征,并且这种系统的性能严重依赖特征表示的质量。另一方面,学习传感数据的表示已经成为深度学习方法的焦点,大多数深度学习方法依赖应用于深度卷积神经网络的大监督训练集合。
可能使用神经网络的强化学习的最广为人知的成功是TD-Gammon(“Temporaldifference learning and TD-Gammon”,Communications of the ACM,vol 38(3),pages58-68,Tesauro,Gerald)。这是一个西洋双陆棋游戏程序,它通过强化学习和自我游戏来学习,并达到超人类的游戏水平。但是这种方法采用人体工程学特征以及无关于动作的状态值函数(总得分),而不是动作值函数。此外它不接受视觉输入。
追随TD-Gammon的早期尝试不太成功,这种方法对于国际象棋、围棋和跳棋不太有效。这导致一个广泛的信念,即TD-Gammon是一个特例,并且神经网络只能在西洋双陆棋中近似值函数,原因是由于掷骰子的随机性,所以它很平滑。
此外,已经表明,将无模型强化学习算法诸如Q-learning与非线性函数逼近器诸如神经网络组合会导致Q网络发散。因此,后来的工作集中在具有较好收敛保证的线性函数逼近器。除了关于发散的问题之外,通过强化学习提供的训练信号是否足以训练大型神经网络也不清楚。因此,虽然有卷积神经网络的很多成功应用得益于使用大型标记训练示例集合(监督学习),但是通过RL提供的奖励信号经常延迟、稀少且有噪声。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于渊慧科技有限公司,未经渊慧科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201480055621.8/2.html,转载请声明来源钻瓜专利网。