[发明专利]一种具有发育机制的感知行动认知学习方法有效

专利信息
申请号: 201811343603.6 申请日: 2018-11-13
公开(公告)号: CN109212975B 公开(公告)日: 2021-05-28
发明(设计)人: 张晓平;阮晓钢;王力;李志军;李幼军;闫佳庆;毕松;吉鸿海;肖尧 申请(专利权)人: 北方工业大学
主分类号: G05B13/04 分类号: G05B13/04
代理公司: 北京思海天达知识产权代理有限公司 11203 代理人: 刘萍
地址: 100144 北京市*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 具有 发育 机制 感知 行动 认知 学习方法
【权利要求书】:

1.一种具有发育机制的感知行动认知学习方法,其特征在于,以学习自动机为基础设计了一种感知行动认知模型,具体为一个十四元组t,S,M,Ms,Os,Ns,Cs,V,Vs,Ps,Ls,AF,Exp,DL,其中各元素含义具体如下:

(1)t∈{0,1,…nt}:模型离散学习时间集,其中t=0表示学习初始时刻,nt表示最大离散学习时间,两轮机器人自平衡任务中,针对机器人基本学习过程和轮次学习过程,nt分别设定为500s和30s以上;

(2)S={si|i=1,2,…,ns}:模型内部可感知离散状态集,其中si∈S表示模型第i个可感知的内部状态,ns为离散状态数,两轮机器人自平衡任务中,可感知状态由机器人身姿角度与身姿角速度构成,二者状态划分数分别用与表示,则

(3)M={mj|j=1,2,…,nm}:模型可输出动作集,mj表示可输出动作集中第j个动作,nm为动作空间可输出动作数,两轮机器人自平衡任务中,机器人通过控制轮子的运动实现身体的平衡,因此模型可输出动作为机器人左右两轮轮子转矩值;

(4)Ms={Mi|i=1,2,…,ns}:模型有效输出动作空间集,Mi={mik|k=1,2,…,ni}为状态si下的有效输出动作空间,mik∈M为模型在状态si下从M中学习到的第k个有效动作,ni为状态si下学习到的有效动作个数,随着学习的不断进行,ni会发生变化,有效动作指的是在当前状态下能够使机器人趋向目标的动作;

(5)Os={Oi|i=1,2,…,ns}:模型有效感知行动映射取向性集,其中Oi={oik|k=1,2,…,ni}为状态si下的有效感知行动映射取向性集,oik为状态si对其第k个有效动作的选择取向性;

(6)Ns={Ni|i=1,2,…,ns}:模型有效感知行动映射学习次数集,Ni={nik|k=1,2,…,ni}为状态si下模型对其各有效动作的学习次数集,nik表示状态si对动作mik的学习次数,若t时刻,mik被选择,则t+1时刻:

nik(t+1)=nik(t)+1

对于其他所有没有被学习的有效感知行动映射,其学习次数保持不变;

(7)Cs={Ci|i=1,2,…,ns}:模型有效感知行动映射好奇心集,Ci={cik|k=1,2,…,ni}为状态si下模型对各有效动作的好奇心集,cik表示状态si对动作mik的好奇度,具体为:

其中,kc和c为好奇心参数,针对两轮机器人自平衡任务,经过实验验证取kc=0.05,c=1;

(8)V:模型状态评价函数,用来评价模型所处状态的理想程度,模型越接近目标,状态值越大,越远离目标,状态值越小,针对两轮机器人自平衡任务,模型状态评价函数设计为:

(9)Vs:模型取向函数,用于决定模型学习方向,定义为:

Vs(t+1)=V(t+1)-V(t)

表示t+1时刻机器人的取向函数的值Vs(t+1)取决于t+1时刻机器人的状态评价函数值V(t+1)与t时刻机器人的状态评价函数值V(t);

(10)Ps={Pi|i=1,2,…,ns}:模型有效操作函数集,用于决定模型在有效动作空间内对动作的选择,Pi={pik|k=1,2,…,ni}为状态si所对应的有效操作函数集,pik为状态si对动作mik的操作值,具体为:

pik=σoik+(1-σ)cik

其中0σ1为操作函数参数,两轮机器人自平衡任务中,经过实验验证取σ=0.7;

(11)Ls:模型有效动作空间取向性学习算法,在模型有效动作空间内各动作均能使得Vs(t+1)≥0,因此针对有效动作空间的取向性学习算法Ls简单设计为:

其中oik对应被选动作mik的取向性,oik′为状态si下其余动作的取向性值,η为取向性学习算法参数,两轮机器人自平衡任务中,经过实验验证取η=0.1;

(12)AF={AFij|i=1,2,…,ns,j=1,2,…nm}:模型潜在动作关系集,具体为一个三元组:

AFij:(effect,(si,mj))

AFij意义为:模型在状态si下输出mj产生的效果为effect;模型在对可输出动作集进行探索时,每探索一个新的感知行动映射(si,mj),就会伴随着一个新的潜在动作关系元组形成;

针对模型结构发育学习过程:

若effect=1,表示在感知状态si下动作mj是可被选择的,即动作mj是状态si下的有效动作;

若effect=0,表示在状态si下,动作mj是不可取的,会使得学习偏离目标;

若effect值为空,即effect=φ,则表示对应的感知行动映射还没有被探索;

依据操作条件反射学习特点及定义的取向函数,effect值计算方式如下:

(13)Exp={Expi|i=1,2,…,ns}:模型可输出动作空间探索率集,Expi表示模型在状态si下对可输出动作空间M的探索率,通过下式进行计算:

其中,Numi{effect≠φ}=nm-Numi{effect=φ}表示状态si下可输出动作空间中潜在动作关系元组effect≠φ的个数,亦即状态si对可输出动作空间已经进行探索的感知行动映射数;

任意状态si下,模型或对该状态下已发育形成的有效输出动作空间Mi进行学习,或对该状态下可输出动作空间M的剩余空间进行探索;在此规定,模型学习过程中,在状态si下模型总是依概率1-Expi对M剩余空间进行探索,依概率Expi对其有效输出动作空间Mi进行学习;

(14)DL:模型发育算法,包含DL1和DL2,其中DL1为模型在探索可输出动作集M后需要对其有效输出动作空间集Ms进行扩展的发育算法,DL2则是模型对其有效输出动作空间集Ms不断学习后需要进行缩减的发育算法;

模型按以下步骤进行学习:

Step1.初始化:学习初始时刻t=0时,对模型中各元素进行初始化,具体包括:定义模型内部可感知离散状态集S及可输出动作集M,定义模型状态评价函数V,设置学习相关参数,设置学习终止条件;

Step2.状态感知:观察学习t时刻模型状态si(t),并计算当前状态取向值V(t),由机器人身姿角度与身姿角速度决定;

Step3.计算模型动作空间探索率Expi,依概率1-Expi对M剩余动作空间进行探索,依概率Expi对Mi进行学习;

所谓状态si下M的剩余动作空间,即状态si在可输出动作集M中所有潜在动作关系元组(effect,(si,mj))中effect值为φ的动作,effect值为φ表示感知行动映射(si,mj)没有被探索;

Step4.t时刻,若模型依概率1-Expi对M剩余动作空间进行了探索,则执行Step 4.1.1-Step 4.1.5;若模型依概率Expi对当前状态si下有效动作空间Mi进行学习,则执行Step4.2.1-Step 4.2.7,模型对Mi中各动作的学习依内发动机机制进行;两种情况下的执行步骤具体如下:

Step4.1.1选择动作并输出:模型在当前状态的M剩余动作空间中随机选择某个动作并输出;

Step4.1.2.状态发生转移:t时刻,模型在当前状态si(t)下从M剩余动作空间中随机选择了某个动作,假设为mj作用于客体环境,状态发生转移,观测t+1时刻模型的新状态,并计算其状态值V(t+1);

Step4.1.3.计算取向函数值Vs(t+1);

Step4.1.4.更新模型潜在动作关系集;

Step4.1.5.判断是否扩展发育:若effect=0,模型有效感知行动映射结构不变,若effect=1,按扩展发育步骤及扩展发育算法DL1对模型结构及相关属性进行更新;

Step4.2.1.计算当前状态下的好奇心集Ci(t):在感知状态si(t)下,模型有效输出动作空间Mi中某一动作,设为mik随机引起了模型对其进行学习的好奇心,其好奇度被激发,计算该好奇心值cik(t),对于没有引起模型好奇心的其余动作,cik′(t)=0;

Step4.2.2.计算操作函数集Pi(t);

Step4.2.3.依据内发动机机制选择动作并输出;

Step4.2.4.状态发生转移,计算其状态值V(t+1);

Step4.2.5.计算取向函数值Vs(t+1);

Step4.2.6.更新有效感知行动取向性映射集;

Step4.2.7.判断是否缩减发育:根据更新后的取向性映射集Oi判断是否需要对Mi进行缩减发育,当Oi中存在需要被剪除的动作时,依据缩减发育步骤及缩减发育算法DL2对模型结构及相关属性进行更新;

Step5.判断学习结束条件:根据设定的学习终止条件判断学习是否结束,若满足条件,则结束,否则返回Step2,两轮机器人自平衡任务中,针对机器人基本学习过程和轮次学习过程,学习终止条件分别为达到设定的最大离散学习时间500s和30s以上。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北方工业大学,未经北方工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201811343603.6/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top