[发明专利]用于增强学习的神经模型有效
申请号: | 201380063033.4 | 申请日: | 2013-05-16 |
公开(公告)号: | CN104823205B | 公开(公告)日: | 2019-05-28 |
发明(设计)人: | 科里·M·蒂博;纳拉延·斯里尼瓦桑 | 申请(专利权)人: | HRL实验室有限责任公司 |
主分类号: | G06N3/02 | 分类号: | G06N3/02 |
代理公司: | 北京天昊联合知识产权代理有限公司 11112 | 代理人: | 顾丽波;井杰 |
地址: | 美国加利*** | 国省代码: | 美国;US |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 增强 学习 神经 模型 | ||
一种用于增强学习和行动选择的神经模型,该神经模型包括多个通道、位于每个通道中的输入神经元组、位于每个通道中的输出神经元组,每个通道中的每组输入神经元耦接到每个通道中的每组输出神经元,还包括位于每个通道中的奖赏神经元组。每个通道的奖赏神经元组接收来自环境输入的输入,并且只耦接到奖赏神经元所属的通道中的输出神经元。如果通道的环境输入是正的,则相应通道的输出神经元被奖赏并具有增强的响应,否则,相应通道的输出神经元被惩罚并具有衰减的响应。
相关申请的交叉引用
本申请涉及2012年12月3日提交的申请号为61/732,590的美国临时专利申请,并要求其作为优先权,在此通过引用将其全部并入本文。本申请还涉及2013年5月16日提交的申请号为13/896,110的美国非临时专利申请,并要求其作为优先权,在此通过引用将其全部并入本文。
关于联邦政府资助的声明
本发明是在政府合同“美国国防部高级研究计划局神经元的突触HR0011-09-C-0001”的支持下进行的。政府在本发明中具有一定权利。
技术领域
本公开涉及神经网络,特别是能够进行行动选择和增强学习的神经网络。本文公开的技术包含用于神经形态硬件的可塑行动选择网络。
背景技术
在现有技术中,能够进行行动选择的神经网络已经显现出很好的特点,其具有的特点说明了增强学习。但是,在现有技术中,行动选择和增强学习算法对于末梢奖赏问题呈现出复杂的解,这对于硬件实施方案是不容易控制的。
Barr,D.、P.Dudek、J.Chambers和K.Gurney在2007年8月的国际神经网络联合会议(IJCNN)的1560-1565页的“Implementation of multi-layer leaky integratornetworks on a cellular processor array”中描述了一个神经处理器阵列上的基底神经节的模型。软件神经模型能够执行行动选择。但是,Barr等人没有描述关于增强学习的任何内在机制,并且基底神经节的微通道是预定义的。
Merol la,P.、J.Arthur、F.Akopyan、N.Imam、R.Manohar和D.Modha在电气和电子工程师协会2011年9月的定制集成电路会议(CICC)的1-4页的“A digital neurosynapticcore using embedded crossbar memory with 45pj per spike in 45nm”中描述了一个能够与人类对手进行乒乓球游戏的神经形态处理器。但是,该网络是离线构建的,并且一旦在硬件上编程会保持静态。
需要的是一种能够实现行动选择和增强学习并且可以更易于硬件实现的神经网络。本公开的多个实施例对这些和其它需求给出了答案。
发明内容
在本文公开的第一个实施例中,一种用于增强学习和行动选择的神经模型包括:多个通道;位于每个通道中的输入神经元组;位于每个通道中的输出神经元组,每个通道中的每组输入神经元耦接到每个通道中的每组输出神经元;位于每个通道中的奖赏神经元组,其中每组奖赏神经元接收来自环境输入的输入,并且其中每个通道的奖赏神经元只耦接到奖赏神经元所属的通道中的输出神经元;其中,如果通道的环境输入是正的,则相应通道的输出神经元被奖赏并具有增强的响应;其中,如果通道的环境输入是负的,则相应通道的输出神经元被惩罚并具有衰减的响应。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于HRL实验室有限责任公司,未经HRL实验室有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201380063033.4/2.html,转载请声明来源钻瓜专利网。