[发明专利]一种基于强化学习的小脑模型建模方法有效

专利信息
申请号: 201710461371.3 申请日: 2017-06-18
公开(公告)号: CN107341543B 公开(公告)日: 2020-09-29
发明(设计)人: 刘蓉;林相乾;王永轩 申请(专利权)人: 大连理工大学
主分类号: G06N3/063 分类号: G06N3/063;G06N3/08;G06N3/04
代理公司: 大连星海专利事务所有限公司 21208 代理人: 王树本
地址: 116024 辽*** 国省代码: 辽宁;21
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明属于神经工程与生物信息系统建模技术领域,一种基于强化学习的小脑模型建模方法,包括以下步骤:(1)建立小脑模型的基本结构,(2)根据效应器的状态信息,计算各个基本单元中的平行纤维状态,(3)计算各个基本单元的输出,从而得到小脑模块输出命令,(4)执行小脑模块学习功能。本发明以小脑自身的解剖学与生理学特性为出发点,在神经元水平上模拟、复制小脑的神经系统的结构与功能,解决了现有的许多小脑建模方法追求控制效果而忽略小脑本身特性的弊端。同时,将强化学习方法作为小脑学习过程所采取的机制能够很好地体现小脑学习过程中攀爬纤维放电的“全”或“无”的特点,使建立的小脑模型更具有生物的合理性。
搜索关键词: 一种 基于 强化 学习 小脑 模型 建模 方法
【主权项】:
一种基于强化学习的小脑模型建模方法,其特征在于包括以下步骤:步骤A、建立小脑模型的基本结构,基于小脑皮层的匀质结构特性,使用具有相同结构的p个基本单元的阵列来建立小脑模型的总体结构,p表示基本单元的数量,每个基本单元接收相同的输入信息,随后进入步骤B;步骤B、根据效应器的状态信息,计算各个基本单元中平行纤维的状态,具体包括以下子步骤:子步骤B1、将效应器的状态空间进行均匀划分,划分的数量与每个基本单元中平行纤维的数量m相同,每条平行纤维对应一个状态空间区域;子步骤B2、根据效应器所处的状态,确定第k个基本单元中的平行纤维的状态值xki,其值具有二值性,用“0”表示抑制状态,“1”表示激活状态,当效应器的状态位于第i条平行纤维对应的状态空间区域时,则xki赋值为1,其中,k=1,2,…p,i=1,2,…m,i表示第i条平行纤维,然后进入步骤C;步骤C、计算各个基本单元的输出命令,从而得到小脑模块输出命令,具体包括以下子步骤:子步骤C1、计算第k个基本单元的网状结构输出,此基本单元中各个浦肯野细胞的状态值为ykj,其值随时间改变,j=1,2,…n,n表示浦肯野细胞数目,具体包括以下子步骤:子步骤C11、利用公式(1)计算第k个基本单元中第j个浦肯野细胞在t时刻的膜电位值qkj(t),式中,wkij表示第i条平行纤维与第j个浦肯野细胞形成的突触的记忆权值,由于该类突触为小脑学习记忆的载体,因此wkij设为可调,其初始值设为1,小脑模块的输出通过调整其值大小来改变;θkj表示篮细胞与第j个浦肯野细胞形成的突触的权值,表示星形细胞与第j个浦肯野细胞形成的突触的权值,由于篮细胞和星形细胞对浦肯野细胞产生抑制作用,其值皆为负值,以上两权值均为固定值,都设为‑0.1,bkj表示与第j个浦肯野细胞相连的篮细胞的状态值,sk表示星形细胞的状态,篮细胞与星形细胞在执行过程中始终保持激活状态,因此其值皆恒定为1;子步骤C12、浦肯野细胞的状态具有二值性,用“0”表示抑制状态,“1”表示激活状态,结合子步骤C11计算得到的qkj(t),利用公式(2)、(3)计算在t时刻时第k个基本单元中第j个浦肯野细胞的状态值,对于初始时刻,t=1时,ykj(t)=1qkj(t)≥η0qkj(t)<η---(2)]]>当t>1时,ykj(t)还与上一时刻ykj(t‑1)的值相关,赋值方法为,式中,φ、η分别为浦肯野细胞膜电位的去极化和复极化的阈值,为固定常数,且φ>η,设定φ=1,η=0.8;子步骤C2、根据反馈环路loop状态与基本单元中的浦肯野细胞的状态,计算各个基本单元输出,loop具有两种状态,即on与off状态,二者转化的条件为:当小脑模块开始执行命令输出时,loop由off转变为on状态;而当基本单元中的所有的PC都处于激活状态时,loop由on转变为off状态,根据loop不同状态,利用公式(4)计算第k个基本单元的输出命令Ok(t),式中,γ表示命令调整系数,设为常数,则在t时刻小脑模块的输出命令为O(t)=[O1(t),O2(t),…Op(t)],若O(t)为零向量,则执行步骤D,即完成一次小脑模块命令的输出,否则执行子步骤C3;子步骤C3、根据权值调整公式,计算当前小脑模块记忆信息对应的控制命令输出,具体包括以下子步骤:子步骤C31、根据权值调整公式(5),调整第k个基本单元在t+1时刻的平行纤维和浦肯野细胞形成的突触记忆权值wkij(t+1)的大小,Δwkij(t)=λ·[1-ykj(t)]xkiwkij(t+1)=wkij(t)+Δwkij(t)--(5)]]>式中,λ为调整系数,设为常数,Δwkij(t)为在t时刻时平行纤维和浦肯野细胞形成的突触记忆权值的变化量,wkij(t)表示在t时刻平行纤维和浦肯野细胞形成的突触记忆权值;子步骤C32、根据t时刻的小脑模块输出命令O(t)和小脑命令到效应器运动控制命令的映射关系F,利用公式(6)计算t+1时刻效应器的状态,ΔM(t)=F·O(t)M(t+1)=M(t)+ΔM(t)---(6)]]>式中,ΔM(t)表示t时刻小脑命令控制效应器运动而产生的状态的调整值,M(t)表示t时刻效应器的状态,M(t+1)表示t+1时刻效应器的状态,随后再次执行子步骤B2;步骤D、执行小脑模块学习功能,通过调整小脑模块的记忆权值,进而改变小脑模块的命令输出,若小脑模块首次进入学习过程,则执行子步骤D1,否则,执行子步骤D2;子步骤D1、设定基于强化学习机制的小脑模型的相关要素的初始值,具体包括以下子步骤:子步骤D11、设定所有平行纤维的状态值函数V的初始值均为1,其中,当平行纤维所处的状态为S时,其值函数可表示为VS;子步骤D12、制定初始条件下,行为选择的策略为π(a),其具体内容为:在不同状态下,选择各个行为a的概率相同;其中,行为a表示选择一个基本单元激活,同时,每个基本单元激活都产生一个模值相同的基本单元输出命令Ok';子步骤D2、计算效应器的状态与期望值的误差,若在预先设定的允许范围之内,则建模完成,否则执行子步骤D3;子步骤D3、判定对应基本单元的攀爬纤维的状态,具体包括以下子步骤:子步骤D31、根据步骤B,确定在t时刻各个基本单元中平行纤维的状态S(t),并计算状态值函数VS(t);子步骤D32、根据当前策略π(a),选择t时刻的行为a(t),并得到小脑模块的输出命令O',其中,O'=[0,0,…,Ok',0,…],根据公式(6),可得到效应器的状态信息,再次根据步骤B,确定在t+1时刻各个基本单元中平行纤维的状态S(t+1),并计算状态值函数VS(t+1);同时,根据公式(7)计算环境反馈的奖惩值,式中,r(t+1)表示在t+1时刻的奖惩值;子步骤D33、根据公式(8)计算在t时刻的TD误差δ(t),δ(t)=r(t+1)+VS(t)‑VS(t+1)   (8)子步骤D34、根据公式(9)修改行为选择策略,pr(S,a)=pr(S,a)+βδ(t)π(a)=epr(S,a)Σb=1pepr(S,b)---(9)]]>式中,pr(S,a)表示在状态S下,选择行为a的倾向性,β为常值系数;子步骤D35、根据公式(10)确定对应基本单元的攀爬纤维的状态,ck=1δ(t)≥0-1δ(t)<0---(10)]]>式中,ck表示激活对应基本单元的攀爬纤维状态值;子步骤D4、根据公式(11),对小脑模块第k个基本单元中的每个PF‑PC初始权值wkij(1)进行调整,wkij(1)=wkij(1)‑σ·ck·xkj·ekj(τ)   (11)式中,σ表示学习系数,τ为信号在神经通路上传导的时延,ekj(t)为第k个基本单元中的第j个PF所对应的资格迹,可通过下式进行描述,ekj(t)=1.088t-0.9852t2-2.066t+2.099]]>子步骤D5、若VS(t+1)≥VS(t),则执行子步骤D2,否则,将效应器恢复到初始状态,将t重置为1,执行子步骤B2。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于大连理工大学,未经大连理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201710461371.3/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top