[发明专利]一种具有发育机制的感知行动认知学习方法有效

申请号：	201811343603.6	申请日：	2018-11-13
公开（公告）号：	CN109212975B	公开（公告）日：	2021-05-28
发明（设计）人：	张晓平;阮晓钢;王力;李志军;李幼军;闫佳庆;毕松;吉鸿海;肖尧	申请（专利权）人：	北方工业大学
主分类号：	G05B13/04	分类号：	G05B13/04
代理公司：	北京思海天达知识产权代理有限公司 11203	代理人：	刘萍
地址：	100144 北京市***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种具有发育机制感知行动认知学习方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种具有发育机制的感知行动认知学习方法，其特征在于，以学习自动机为基础设计了一种感知行动认知模型，具体为一个十四元组t,S,M,M_s,O_s,N_s,C_s,V，V_s,P_s,L_s,AF,Exp,DL，其中各元素含义具体如下：

(1)t∈{0,1,…n_t}：模型离散学习时间集，其中t＝0表示学习初始时刻，n_t表示最大离散学习时间，两轮机器人自平衡任务中，针对机器人基本学习过程和轮次学习过程，n_t分别设定为500s和30s以上；

(2)S＝{s_i|i＝1,2,…,n_s}：模型内部可感知离散状态集，其中s_i∈S表示模型第i个可感知的内部状态，n_s为离散状态数，两轮机器人自平衡任务中，可感知状态由机器人身姿角度与身姿角速度构成，二者状态划分数分别用与表示，则

(3)M＝{m_j|j＝1,2,…,n_m}：模型可输出动作集，m_j表示可输出动作集中第j个动作，n_m为动作空间可输出动作数，两轮机器人自平衡任务中，机器人通过控制轮子的运动实现身体的平衡，因此模型可输出动作为机器人左右两轮轮子转矩值；

(4)M_s＝{M_i|i＝1,2,…,n_s}：模型有效输出动作空间集，M_i＝{m_ik|k＝1,2,…,n_i}为状态s_i下的有效输出动作空间，m_ik∈M为模型在状态s_i下从M中学习到的第k个有效动作，n_i为状态s_i下学习到的有效动作个数，随着学习的不断进行，n_i会发生变化，有效动作指的是在当前状态下能够使机器人趋向目标的动作；

(5)O_s＝{O_i|i＝1,2,…,n_s}：模型有效感知行动映射取向性集，其中O_i＝{o_ik|k＝1,2,…,n_i}为状态s_i下的有效感知行动映射取向性集，o_ik为状态s_i对其第k个有效动作的选择取向性；

(6)N_s＝{N_i|i＝1,2,…,n_s}：模型有效感知行动映射学习次数集，N_i＝{n_ik|k＝1,2,…,n_i}为状态s_i下模型对其各有效动作的学习次数集，n_ik表示状态s_i对动作m_ik的学习次数，若t时刻，m_ik被选择，则t+1时刻：

n_ik(t+1)＝n_ik(t)+1

对于其他所有没有被学习的有效感知行动映射，其学习次数保持不变；

(7)C_s＝{C_i|i＝1,2,…,n_s}：模型有效感知行动映射好奇心集，C_i＝{c_ik|k＝1,2,…,n_i}为状态s_i下模型对各有效动作的好奇心集，c_ik表示状态s_i对动作m_ik的好奇度，具体为：

其中，k_c和c为好奇心参数，针对两轮机器人自平衡任务，经过实验验证取k_c＝0.05，c＝1；

(8)V：模型状态评价函数，用来评价模型所处状态的理想程度，模型越接近目标，状态值越大，越远离目标，状态值越小，针对两轮机器人自平衡任务，模型状态评价函数设计为：

(9)V_s：模型取向函数，用于决定模型学习方向，定义为：

V_s(t+1)＝V(t+1)-V(t)

表示t+1时刻机器人的取向函数的值V_s(t+1)取决于t+1时刻机器人的状态评价函数值V(t+1)与t时刻机器人的状态评价函数值V(t)；

(10)P_s＝{P_i|i＝1,2,…,n_s}：模型有效操作函数集，用于决定模型在有效动作空间内对动作的选择，P_i＝{p_ik|k＝1,2,…,n_i}为状态s_i所对应的有效操作函数集，p_ik为状态s_i对动作m_ik的操作值，具体为：

p_ik＝σo_ik+(1-σ)c_ik

其中0σ1为操作函数参数，两轮机器人自平衡任务中，经过实验验证取σ＝0.7；

(11)L_s：模型有效动作空间取向性学习算法，在模型有效动作空间内各动作均能使得V_s(t+1)≥0，因此针对有效动作空间的取向性学习算法L_s简单设计为：

其中o_ik对应被选动作m_ik的取向性，o_ik′为状态s_i下其余动作的取向性值，η为取向性学习算法参数，两轮机器人自平衡任务中，经过实验验证取η＝0.1；

(12)AF＝{AF_ij|i＝1,2,…,n_s,j＝1,2,…n_m}：模型潜在动作关系集，具体为一个三元组：

AF_ij:(effect,(s_i,m_j))

AF_ij意义为：模型在状态s_i下输出m_j产生的效果为effect；模型在对可输出动作集进行探索时，每探索一个新的感知行动映射(s_i,m_j)，就会伴随着一个新的潜在动作关系元组形成；

针对模型结构发育学习过程：

若effect＝1，表示在感知状态s_i下动作m_j是可被选择的，即动作m_j是状态s_i下的有效动作；

若effect＝0，表示在状态s_i下，动作m_j是不可取的，会使得学习偏离目标；

若effect值为空，即effect＝φ，则表示对应的感知行动映射还没有被探索；

依据操作条件反射学习特点及定义的取向函数，effect值计算方式如下：

(13)Exp＝{Exp_i|i＝1,2,…,n_s}：模型可输出动作空间探索率集，Exp_i表示模型在状态s_i下对可输出动作空间M的探索率，通过下式进行计算：

其中，Num_i{effect≠φ}＝n_m-Num_i{effect＝φ}表示状态s_i下可输出动作空间中潜在动作关系元组effect≠φ的个数，亦即状态s_i对可输出动作空间已经进行探索的感知行动映射数；

任意状态s_i下，模型或对该状态下已发育形成的有效输出动作空间M_i进行学习，或对该状态下可输出动作空间M的剩余空间进行探索；在此规定，模型学习过程中，在状态s_i下模型总是依概率1-Exp_i对M剩余空间进行探索，依概率Exp_i对其有效输出动作空间M_i进行学习；

(14)DL：模型发育算法，包含DL₁和DL₂，其中DL₁为模型在探索可输出动作集M后需要对其有效输出动作空间集M_s进行扩展的发育算法，DL₂则是模型对其有效输出动作空间集M_s不断学习后需要进行缩减的发育算法；

模型按以下步骤进行学习：

Step1.初始化：学习初始时刻t＝0时，对模型中各元素进行初始化，具体包括：定义模型内部可感知离散状态集S及可输出动作集M，定义模型状态评价函数V，设置学习相关参数，设置学习终止条件；

Step2.状态感知：观察学习t时刻模型状态s_i(t)，并计算当前状态取向值V(t)，由机器人身姿角度与身姿角速度决定；

Step3.计算模型动作空间探索率Exp_i，依概率1-Exp_i对M剩余动作空间进行探索，依概率Exp_i对M_i进行学习；

所谓状态s_i下M的剩余动作空间，即状态s_i在可输出动作集M中所有潜在动作关系元组(effect,(s_i,m_j))中effect值为φ的动作，effect值为φ表示感知行动映射(s_i,m_j)没有被探索；

Step4.t时刻，若模型依概率1-Exp_i对M剩余动作空间进行了探索，则执行Step 4.1.1-Step 4.1.5；若模型依概率Exp_i对当前状态s_i下有效动作空间M_i进行学习，则执行Step4.2.1-Step 4.2.7，模型对M_i中各动作的学习依内发动机机制进行；两种情况下的执行步骤具体如下：

Step4.1.1选择动作并输出：模型在当前状态的M剩余动作空间中随机选择某个动作并输出；

Step4.1.2.状态发生转移：t时刻，模型在当前状态s_i(t)下从M剩余动作空间中随机选择了某个动作，假设为m_j作用于客体环境，状态发生转移，观测t+1时刻模型的新状态，并计算其状态值V(t+1)；

Step4.1.3.计算取向函数值V_s(t+1)；

Step4.1.4.更新模型潜在动作关系集；

Step4.1.5.判断是否扩展发育：若effect＝0，模型有效感知行动映射结构不变，若effect＝1，按扩展发育步骤及扩展发育算法DL₁对模型结构及相关属性进行更新；

Step4.2.1.计算当前状态下的好奇心集C_i(t)：在感知状态s_i(t)下，模型有效输出动作空间M_i中某一动作，设为m_ik随机引起了模型对其进行学习的好奇心，其好奇度被激发，计算该好奇心值c_ik(t)，对于没有引起模型好奇心的其余动作，c_ik′(t)＝0；

Step4.2.2.计算操作函数集P_i(t)；

Step4.2.3.依据内发动机机制选择动作并输出；

Step4.2.4.状态发生转移，计算其状态值V(t+1)；

Step4.2.5.计算取向函数值V_s(t+1)；

Step4.2.6.更新有效感知行动取向性映射集；

Step4.2.7.判断是否缩减发育：根据更新后的取向性映射集O_i判断是否需要对M_i进行缩减发育，当O_i中存在需要被剪除的动作时，依据缩减发育步骤及缩减发育算法DL₂对模型结构及相关属性进行更新；

Step5.判断学习结束条件：根据设定的学习终止条件判断学习是否结束，若满足条件，则结束，否则返回Step2，两轮机器人自平衡任务中，针对机器人基本学习过程和轮次学习过程，学习终止条件分别为达到设定的最大离散学习时间500s和30s以上。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于北方工业大学，未经北方工业大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201811343603.6/1.html，转载请声明来源钻瓜专利网。

上一篇：基于节点发射功率调节构建树形网络的方法、设备和系统
下一篇：基于LoRa编码和解码机制的检错和自适应纠错方法

同类专利

专利分类

G 物理

G05 控制；调节
G05B 一般的控制或调节系统；这种系统的功能单元；用于这种系统或单元的监视或测试装置
G05B13-00 自适应控制系统，即系统按照一些预定的准则自动调整自己使之具有最佳性能的系统
G05B13-02 .电的
G05B13-04 ..包括使用模型或模拟器的

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种具有发育机制的感知行动认知学习方法有效

专利文献下载