[发明专利]一种具有内发动机机制的感知运动系统认知及其学习方法有效

申请号：	201410808900.9	申请日：	2014-12-22
公开（公告）号：	CN104614988A	公开（公告）日：	2015-05-13
发明（设计）人：	阮晓钢;张晓平;武璇;黄静;陈志刚;肖尧;朱晓庆;奥塔瓦.谢	申请（专利权）人：	北京工业大学
主分类号：	G05B13/04	分类号：	G05B13/04
代理公司：	北京思海天达知识产权代理有限公司 11203	代理人：	刘萍
地址：	100124 ***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种具有发动机机制感知运动系统认知及其学习方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种具有内发动机机制的感知运动系统认知及其学习方法，其特征在于，系统认知模型以学习自动机为基础，设计为一个十元组<S,M,O,N,C,V,V_s,P,F,E>，各部分内容具体如下：

(1)S：系统离散感知状态集合，S＝{s_i|i＝1,2,…n_s}，s_i∈S为第i个感知状态，n_s为可感知到的离散状态的个数，针对连续系统，将需要考虑的连续状态空间[X_min,X_max]离散化为离散状态空间，其中X_min为所需考虑状态的下限值，X_max为所需考虑状态的上限值，对连续状态空间进行均匀划分，令w＝(X_max-X_min)/n_s，则离散化后的状态空间为：S＝{[X_min+(i-1)w,X_min+iw]|i＝1,2,…n_s}；

(2)M：系统动作集合，M＝{M_i|i＝1,2,…,n_s}，M_i＝{m_ij|j＝1,2,…,n_i}，m_ij表示系统第i个感知状态下第j个可选动作，n_i为第i个状态下可选动作的个数；

(3)O：“感知‐运动”取向性映射集合，O＝{O_i|i＝1,2,…n_s}，O_i为状态s_i对应的取向性映射矩阵，其中diag表示括号里的元素以对角阵的方式储存，此处元素o_ij的下表i(i＝1,2,…,n_s)并不表示元素所在矩阵的行信息，o_ij(i∈(1,2,…,n_s),j∈(1,2,…,n_i))表示一条“感知‐运动”映射，表征的是系统在感知状态s_i∈S下对动作m_ij的取向性，或称感知状态s_i与动作m_ij的感知运动取向性为o_ij，规定智能体在任何感知状态下对该状态下所有动作的取向性总和保持不变，即当智能体在某状态下对其中一动作的取向性增加时，同时意味着在该状态下对其他动作的取向性减小，本认知模型中，取向性满足0≤o_ij≤1且Σj=1nioij=1;]]>

(4)N：状态学习次数，N＝{N_i|i＝1,2,…,n_s}，N_i为至t时刻状态s_i被学习的次数；

(5)C：好奇心，C＝{c_i|i＝1,2,…n_s}，c_i为状态s_i的好奇心；

(6)V：系统状态取向值，用来决定取向函数的值，V＝{V_i|i＝1,2,…n_s}，为满足系统普适性，定义V_i∈[-1,1]，‐1为最差状态的状态取向值，1为最理想状态的状态取向值，对于离散系统，根据实际情况定义各状态的取向值，对于连续系统，对离散化后的状态定义离散状态取向值，也在线计算所处状态的连续状态取向值，针对连续系统，状态取向值的计算方法为：J_i表征期望状态和实际状态之间的误差程度，定义为J_i(t)＝(X_b-X_i(t))²，其中X_b为期望状态值，X_i(t)为t时刻实际状态值，V_i被归一化到[-1,1]之间，且为J_i的减函数，意味着t时刻所处状态与期望状态之间误差越大，状态取向值越小，所处状态与期望状态之间误差越小，状态取向值越大，符合生物取向性，λ为归一化系数；

(7)V_s：取向函数，V_s＝aV_n+b(V_n-V_o)，V_o和V_n分别表示执行某一动作的前后状态，取向函数影响系统取向性的变化方向，既与状态取向值变化过程相关，也与变化后所处状态的状态取向值相关，其中a≥0，b≥0为取向函数参数，其取值应保证取向函数的正负号不改变(V_n-V_o)的正负号，且满足a+b＝1，通过学习得到；

(8)P：取向性学习矩阵，P＝{P_i|i＝1,2,…n_s}，作用是依据取向函数所提供的信息，对取向性映射进行更新调整，其中为状态s_i对应的学习矩阵，各参数意义与(3)中相同，不再赘述；

(9)F：系统内部状态转移函数，F(s(t),m(t))＝s(t+1)，表示t时刻在感知状态为s(t)下执行动作m(t)后状态转移为s(t+1)；

(10)E：感知运动系统的知识熵，E＝{E_i|i＝1,2,…n_s}，用来描述系统对知识的学习程度，表征系统的自学习和自组织特性，系统在学习初始阶段，没有任何知识，对各动作的取向性相等，经过不断学习，习得世界知识，取向性发生变化，因此采用信息熵的变化过程来描述系统自学习、自组织的过程，通过信息熵值的变化，来反应系统知识积累的程度，系统t时刻在状态s_i下的知识熵及总的知识熵定义如下：

Ei(t)=Ei(mj(t)|si)=-Σj=1nioij(t)iog2oij(t)=-Σj=1nioij(mj(t)|si)iog2oij(mj(t)|si)E(t)=Σi=1nsEi(t);]]>