[发明专利]一种具有发育机制的感知行动认知学习方法有效
申请号: | 201811343603.6 | 申请日: | 2018-11-13 |
公开(公告)号: | CN109212975B | 公开(公告)日: | 2021-05-28 |
发明(设计)人: | 张晓平;阮晓钢;王力;李志军;李幼军;闫佳庆;毕松;吉鸿海;肖尧 | 申请(专利权)人: | 北方工业大学 |
主分类号: | G05B13/04 | 分类号: | G05B13/04 |
代理公司: | 北京思海天达知识产权代理有限公司 11203 | 代理人: | 刘萍 |
地址: | 100144 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 具有 发育 机制 感知 行动 认知 学习方法 | ||
1.一种具有发育机制的感知行动认知学习方法,其特征在于,以学习自动机为基础设计了一种感知行动认知模型,具体为一个十四元组t,S,M,Ms,Os,Ns,Cs,V,Vs,Ps,Ls,AF,Exp,DL,其中各元素含义具体如下:
(1)t∈{0,1,…nt}:模型离散学习时间集,其中t=0表示学习初始时刻,nt表示最大离散学习时间,两轮机器人自平衡任务中,针对机器人基本学习过程和轮次学习过程,nt分别设定为500s和30s以上;
(2)S={si|i=1,2,…,ns}:模型内部可感知离散状态集,其中si∈S表示模型第i个可感知的内部状态,ns为离散状态数,两轮机器人自平衡任务中,可感知状态由机器人身姿角度与身姿角速度构成,二者状态划分数分别用与表示,则
(3)M={mj|j=1,2,…,nm}:模型可输出动作集,mj表示可输出动作集中第j个动作,nm为动作空间可输出动作数,两轮机器人自平衡任务中,机器人通过控制轮子的运动实现身体的平衡,因此模型可输出动作为机器人左右两轮轮子转矩值;
(4)Ms={Mi|i=1,2,…,ns}:模型有效输出动作空间集,Mi={mik|k=1,2,…,ni}为状态si下的有效输出动作空间,mik∈M为模型在状态si下从M中学习到的第k个有效动作,ni为状态si下学习到的有效动作个数,随着学习的不断进行,ni会发生变化,有效动作指的是在当前状态下能够使机器人趋向目标的动作;
(5)Os={Oi|i=1,2,…,ns}:模型有效感知行动映射取向性集,其中Oi={oik|k=1,2,…,ni}为状态si下的有效感知行动映射取向性集,oik为状态si对其第k个有效动作的选择取向性;
(6)Ns={Ni|i=1,2,…,ns}:模型有效感知行动映射学习次数集,Ni={nik|k=1,2,…,ni}为状态si下模型对其各有效动作的学习次数集,nik表示状态si对动作mik的学习次数,若t时刻,mik被选择,则t+1时刻:
nik(t+1)=nik(t)+1
对于其他所有没有被学习的有效感知行动映射,其学习次数保持不变;
(7)Cs={Ci|i=1,2,…,ns}:模型有效感知行动映射好奇心集,Ci={cik|k=1,2,…,ni}为状态si下模型对各有效动作的好奇心集,cik表示状态si对动作mik的好奇度,具体为:
其中,kc和c为好奇心参数,针对两轮机器人自平衡任务,经过实验验证取kc=0.05,c=1;
(8)V:模型状态评价函数,用来评价模型所处状态的理想程度,模型越接近目标,状态值越大,越远离目标,状态值越小,针对两轮机器人自平衡任务,模型状态评价函数设计为:
(9)Vs:模型取向函数,用于决定模型学习方向,定义为:
Vs(t+1)=V(t+1)-V(t)
表示t+1时刻机器人的取向函数的值Vs(t+1)取决于t+1时刻机器人的状态评价函数值V(t+1)与t时刻机器人的状态评价函数值V(t);
(10)Ps={Pi|i=1,2,…,ns}:模型有效操作函数集,用于决定模型在有效动作空间内对动作的选择,Pi={pik|k=1,2,…,ni}为状态si所对应的有效操作函数集,pik为状态si对动作mik的操作值,具体为:
pik=σoik+(1-σ)cik
其中0σ1为操作函数参数,两轮机器人自平衡任务中,经过实验验证取σ=0.7;
(11)Ls:模型有效动作空间取向性学习算法,在模型有效动作空间内各动作均能使得Vs(t+1)≥0,因此针对有效动作空间的取向性学习算法Ls简单设计为:
其中oik对应被选动作mik的取向性,oik′为状态si下其余动作的取向性值,η为取向性学习算法参数,两轮机器人自平衡任务中,经过实验验证取η=0.1;
(12)AF={AFij|i=1,2,…,ns,j=1,2,…nm}:模型潜在动作关系集,具体为一个三元组:
AFij:(effect,(si,mj))
AFij意义为:模型在状态si下输出mj产生的效果为effect;模型在对可输出动作集进行探索时,每探索一个新的感知行动映射(si,mj),就会伴随着一个新的潜在动作关系元组形成;
针对模型结构发育学习过程:
若effect=1,表示在感知状态si下动作mj是可被选择的,即动作mj是状态si下的有效动作;
若effect=0,表示在状态si下,动作mj是不可取的,会使得学习偏离目标;
若effect值为空,即effect=φ,则表示对应的感知行动映射还没有被探索;
依据操作条件反射学习特点及定义的取向函数,effect值计算方式如下:
(13)Exp={Expi|i=1,2,…,ns}:模型可输出动作空间探索率集,Expi表示模型在状态si下对可输出动作空间M的探索率,通过下式进行计算:
其中,Numi{effect≠φ}=nm-Numi{effect=φ}表示状态si下可输出动作空间中潜在动作关系元组effect≠φ的个数,亦即状态si对可输出动作空间已经进行探索的感知行动映射数;
任意状态si下,模型或对该状态下已发育形成的有效输出动作空间Mi进行学习,或对该状态下可输出动作空间M的剩余空间进行探索;在此规定,模型学习过程中,在状态si下模型总是依概率1-Expi对M剩余空间进行探索,依概率Expi对其有效输出动作空间Mi进行学习;
(14)DL:模型发育算法,包含DL1和DL2,其中DL1为模型在探索可输出动作集M后需要对其有效输出动作空间集Ms进行扩展的发育算法,DL2则是模型对其有效输出动作空间集Ms不断学习后需要进行缩减的发育算法;
模型按以下步骤进行学习:
Step1.初始化:学习初始时刻t=0时,对模型中各元素进行初始化,具体包括:定义模型内部可感知离散状态集S及可输出动作集M,定义模型状态评价函数V,设置学习相关参数,设置学习终止条件;
Step2.状态感知:观察学习t时刻模型状态si(t),并计算当前状态取向值V(t),由机器人身姿角度与身姿角速度决定;
Step3.计算模型动作空间探索率Expi,依概率1-Expi对M剩余动作空间进行探索,依概率Expi对Mi进行学习;
所谓状态si下M的剩余动作空间,即状态si在可输出动作集M中所有潜在动作关系元组(effect,(si,mj))中effect值为φ的动作,effect值为φ表示感知行动映射(si,mj)没有被探索;
Step4.t时刻,若模型依概率1-Expi对M剩余动作空间进行了探索,则执行Step 4.1.1-Step 4.1.5;若模型依概率Expi对当前状态si下有效动作空间Mi进行学习,则执行Step4.2.1-Step 4.2.7,模型对Mi中各动作的学习依内发动机机制进行;两种情况下的执行步骤具体如下:
Step4.1.1选择动作并输出:模型在当前状态的M剩余动作空间中随机选择某个动作并输出;
Step4.1.2.状态发生转移:t时刻,模型在当前状态si(t)下从M剩余动作空间中随机选择了某个动作,假设为mj作用于客体环境,状态发生转移,观测t+1时刻模型的新状态,并计算其状态值V(t+1);
Step4.1.3.计算取向函数值Vs(t+1);
Step4.1.4.更新模型潜在动作关系集;
Step4.1.5.判断是否扩展发育:若effect=0,模型有效感知行动映射结构不变,若effect=1,按扩展发育步骤及扩展发育算法DL1对模型结构及相关属性进行更新;
Step4.2.1.计算当前状态下的好奇心集Ci(t):在感知状态si(t)下,模型有效输出动作空间Mi中某一动作,设为mik随机引起了模型对其进行学习的好奇心,其好奇度被激发,计算该好奇心值cik(t),对于没有引起模型好奇心的其余动作,cik′(t)=0;
Step4.2.2.计算操作函数集Pi(t);
Step4.2.3.依据内发动机机制选择动作并输出;
Step4.2.4.状态发生转移,计算其状态值V(t+1);
Step4.2.5.计算取向函数值Vs(t+1);
Step4.2.6.更新有效感知行动取向性映射集;
Step4.2.7.判断是否缩减发育:根据更新后的取向性映射集Oi判断是否需要对Mi进行缩减发育,当Oi中存在需要被剪除的动作时,依据缩减发育步骤及缩减发育算法DL2对模型结构及相关属性进行更新;
Step5.判断学习结束条件:根据设定的学习终止条件判断学习是否结束,若满足条件,则结束,否则返回Step2,两轮机器人自平衡任务中,针对机器人基本学习过程和轮次学习过程,学习终止条件分别为达到设定的最大离散学习时间500s和30s以上。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北方工业大学,未经北方工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811343603.6/1.html,转载请声明来源钻瓜专利网。