[发明专利]具有脑认知机理的发育自动机及其学习方法有效
申请号: | 201510628233.0 | 申请日: | 2015-09-29 |
公开(公告)号: | CN105205533B | 公开(公告)日: | 2018-01-05 |
发明(设计)人: | 任红格;史涛;向迎帆;李福进;李冬梅;霍美杰;徐少彬;刘为民;张春磊;尹瑞 | 申请(专利权)人: | 华北理工大学 |
主分类号: | G06N3/08 | 分类号: | G06N3/08 |
代理公司: | 唐山永和专利商标事务所13103 | 代理人: | 张云和 |
地址: | 063009 河*** | 国省代码: | 河北;13 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明涉及了具有脑认知机理的发育自动机及其学习方法,属于智能机器人技术领域。具有脑认知机理的发育自动机,包括内部状态集合,系统输出集合,内部操作行为集合,状态转移方程,奖赏信号,系统评价函数,系统动作选择概率,多巴胺响应差分信号。本发明提供的具有脑认知机理的发育自动机及其学习方法,以学习自动机为基础框架为系统自主发育过程提供了一种泛化能力强,适用范围广的数学模型;该方法将感觉运动系统与内在动机机制相结合,提高系统的自学习与自适应能力,实现真正意义上的智能。 | ||
搜索关键词: | 具有 认知 机理 发育 自动机 及其 学习方法 | ||
【主权项】:
一种具有脑认知机理的发育自动机,其特征在于:包括内部状态集合,系统输出集合,内部操作行为集合,状态转移方程,奖赏信号,系统评价函数,系统动作选择概率,多巴胺响应差分信号;(1)SC=[s1,s2,...sj]表示为有限的内部状态集合,相对应于大脑皮层中的感觉皮层,sj表示第j个状态,j为内部状态的个数;(2)MC=[y1,y2,...yi]表示为系统输出集合,相对应于大脑皮层中的运动皮层,yi表示第i个输出,i表示输出的个数;(3)CbA=[a1,a2,...ak]表示为内部操作行为集合,相对应于小脑区域,ak为第k个内部动作,k为内部动作的个数;(4)f:s(t)×a(t)→s(t+1)为状态转移方程,即t+1时刻的状态s(t+1)由t时刻的状态s(t)和操作行为a(t)共同决定,由环境或者模型来决定;(5)r(t)=r(s(t),a(t))表示为系统在t时刻在内部状态为s(t)时所采取的内部操作行为a(t)后使状态转移到s(t+1)后的奖赏信号,相对于丘脑所发出的丘觉;(6)大脑皮层中的输入信号包含两部分,分别是感觉皮质信息和运动皮质信息,作为纹状体的输入,因此:CC={SC,MC} (1)纹状体主要是预测生物体动作取向性好坏的评价机制,进一步说也是内在动机机制取向性好坏的评价机制,定义系统评价函数如下:BGstrio(t)=r(t+1)+γr(t+2)+γ2r(t+3)+... (2)其中,γ∈[0,1]为折扣因子;由于内在动机机制存在的缘故,使得系统的评价函数BGstrio逐渐趋近于0,从而保证系统最终处于稳定状态;定义η为内在动机机制中的取向核心,主要功能是指导自主认知方向;定义取向核心η的取值范围在[ηmin,ηmax]之间,即取向性最好与取向性最差的函数值之间;那么在纹状体中内在动机取向函数定义如公式(3)所示:η(t)=1-e-λBGstrio(t)1+e-λBGstrio(t)---(3)]]>其中λ为取向函数的参数,定义两个相邻时刻的取向函数的差值为θ(t)=η(t)‑η(t‑1),来判别系统的取向性程度,如果θ(t)>0,说明t时刻比t‑1时刻的取向值大,反之θ(t)<0,说明t时刻比t‑1时刻的取向值小;(7)在基底神经节的学习过程中,纹状体中的基质主要是动作选择功能;在由内在动机机制驱动的学习过程中最重要的一个特点就是依照概率大小来选择执行动作;采用Boltzmann概率规则来实现基质的行为选择功能,从而实现学习自动机的概率选择机制,其中Boltzmann概率规则属于公知;首先定义:A=BoltzT{E(s,ak),k=1,2,....m}⇔p(a=ak)=eE(s,ak)TΣk=1meE(s,ak)T---(4)]]>其中:m表示第m个内部动作,A表示Boltzmann概率规则,p(a=ak)表示动作选择概率;根据公式(4)中的定义,将纹状体基质的系统动作选择概率输出用BGmatrix(s,a)来替代p(a=ak)表示,公式(2)代入公式(4)中得到公式(5):BGmatrix(s,a)=eBGstrio(SC(t),ak)TΣk=1meBGstrio(SC(t),ak)T---(5)]]>其中,T为温度常数,表示动作的选择随机程度,T越大说明动作选择的程度越大,相反T越小说明动作选择的程度越小;当T逐渐趋于零时,则BGstrio(SC(t),ak)所对应的动作选择概率逐渐趋于1,系统中T的数值是随着时间逐渐减小的,表示系统在学习过程中经验知识的逐渐增多,并且从一个不稳定的系统逐渐演化为一个稳定系统;(8)由黑质致密部所释放的多巴胺能用来作为动作评估的指导信号,用于改善由动作导致的最大未来奖赏的行为表达,以便获得更加精确的执行动作;在t+1时刻由纹状体所决定的评价函数为:BGstrio(t+1)=r(t+2)+γr(t+3)+γ2r(t+4)+... (6)结合公式(2)和公式(6)可以得出公式(7):BGstrio(t)=r(t+1)+γBGstrio(t+1) (7)这表明,在t时刻时,评价函数BGstrio(t)可以用t+1时刻的评价函数BGstrio(t+1)来表示,但是由于预测初期所存在的误差的影响,使得用评价值BGstrio(t+1)来表示BGstrio(t)的值与实际值并不相等,这样由丘脑输出和纹状体输出的奖赏信息需要在黑质致密部进行处理,并释放多巴胺能SNDPA来调节评价值的表,用公式(8)来表示多巴胺响应差分信号:SNDPA=r(t+1)+γBGstrio(t+1)‑BGstrio(t) (8)
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华北理工大学,未经华北理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201510628233.0/,转载请声明来源钻瓜专利网。