[发明专利]一种具有内发动机机制的感知运动系统认知及其学习方法有效
申请号: | 201410808900.9 | 申请日: | 2014-12-22 |
公开(公告)号: | CN104614988A | 公开(公告)日: | 2015-05-13 |
发明(设计)人: | 阮晓钢;张晓平;武璇;黄静;陈志刚;肖尧;朱晓庆;奥塔瓦.谢 | 申请(专利权)人: | 北京工业大学 |
主分类号: | G05B13/04 | 分类号: | G05B13/04 |
代理公司: | 北京思海天达知识产权代理有限公司 11203 | 代理人: | 刘萍 |
地址: | 100124 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 具有 发动机 机制 感知 运动 系统 认知 及其 学习方法 | ||
1.一种具有内发动机机制的感知运动系统认知及其学习方法,其特征在于,系统认知模型以学习自动机为基础,设计为一个十元组<S,M,O,N,C,V,Vs,P,F,E>,各部分内容具体如下:
(1)S:系统离散感知状态集合,S={si|i=1,2,…ns},si∈S为第i个感知状态,ns为可感知到的离散状态的个数,针对连续系统,将需要考虑的连续状态空间[Xmin,Xmax]离散化为离散状态空间,其中Xmin为所需考虑状态的下限值,Xmax为所需考虑状态的上限值,对连续状态空间进行均匀划分,令w=(Xmax-Xmin)/ns,则离散化后的状态空间为:S={[Xmin+(i-1)w,Xmin+iw]|i=1,2,…ns};
(2)M:系统动作集合,M={Mi|i=1,2,…,ns},Mi={mij|j=1,2,…,ni},mij表示系统第i个感知状态下第j个可选动作,ni为第i个状态下可选动作的个数;
(3)O:“感知‐运动”取向性映射集合,O={Oi|i=1,2,…ns},Oi为状态si对应的取向性映射矩阵,其中diag表示括号里的元素以对角阵的方式储存,此处元素oij的下表i(i=1,2,…,ns)并不表示元素所在矩阵的行信息,oij(i∈(1,2,…,ns),j∈(1,2,…,ni))表示一条“感知‐运动”映射,表征的是系统在感知状态si∈S下对动作mij的取向性,或称感知状态si与动作mij的感知运动取向性为oij,规定智能体在任何感知状态下对该状态下所有动作的取向性总和保持不变,即当智能体在某状态下对其中一动作的取向性增加时,同时意味着在该状态下对其他动作的取向性减小,本认知模型中,取向性满足0≤oij≤1且
(4)N:状态学习次数,N={Ni|i=1,2,…,ns},Ni为至t时刻状态si被学习的次数;
(5)C:好奇心,C={ci|i=1,2,…ns},ci为状态si的好奇心;
(6)V:系统状态取向值,用来决定取向函数的值,V={Vi|i=1,2,…ns},为满足系统普适性,定义Vi∈[-1,1],‐1为最差状态的状态取向值,1为最理想状态的状态取向值,对于离散系统,根据实际情况定义各状态的取向值,对于连续系统,对离散化后的状态定义离散状态取向值,也在线计算所处状态的连续状态取向值,针对连续系统,状态取向值的计算方法为:Ji表征期望状态和实际状态之间的误差程度,定义为Ji(t)=(Xb-Xi(t))2,其中Xb为期望状态值,Xi(t)为t时刻实际状态值,Vi被归一化到[-1,1]之间,且为Ji的减函数,意味着t时刻所处状态与期望状态之间误差越大,状态取向值越小,所处状态与期望状态之间误差越小,状态取向值越大,符合生物取向性,λ为归一化系数;
(7)Vs:取向函数,Vs=aVn+b(Vn-Vo),Vo和Vn分别表示执行某一动作的前后状态,取向函数影响系统取向性的变化方向,既与状态取向值变化过程相关,也与变化后所处状态的状态取向值相关,其中a≥0,b≥0为取向函数参数,其取值应保证取向函数的正负号不改变(Vn-Vo)的正负号,且满足a+b=1,通过学习得到;
(8)P:取向性学习矩阵,P={Pi|i=1,2,…ns},作用是依据取向函数所提供的信息,对取向性映射进行更新调整,其中为状态si对应的学习矩阵,各参数意义与(3)中相同,不再赘述;
(9)F:系统内部状态转移函数,F(s(t),m(t))=s(t+1),表示t时刻在感知状态为s(t)下执行动作m(t)后状态转移为s(t+1);
(10)E:感知运动系统的知识熵,E={Ei|i=1,2,…ns},用来描述系统对知识的学习程度,表征系统的自学习和自组织特性,系统在学习初始阶段,没有任何知识,对各动作的取向性相等,经过不断学习,习得世界知识,取向性发生变化,因此采用信息熵的变化过程来描述系统自学习、自组织的过程,通过信息熵值的变化,来反应系统知识积累的程度,系统t时刻在状态si下的知识熵及总的知识熵定义如下:
系统按以下步骤进行学习:
(1)初始化:设定初始状态S0,初始取向性分布O0及初始好奇心的值C0;
(2)感知当前状态;
(3)计算当前状态下的取向性映射矩阵;
(4)计算当前状态下的好奇心值,生成随机指针,将好奇心投向指针指向的动作;好奇心计算方法设计为:
(5)依据内发动机机制选择动作;
(6)实施选定的动作,状态发生转移;
(7)计算转移后状态的状态取向值;
(8)计算取向函数值;
(9)根据取向函数提供的信息更新“感知‐运动”映射;
(10)重复执行步骤(2)‐(9)直至知识熵不再发生变化或学习时间大于终止时间,学习结束。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京工业大学,未经北京工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410808900.9/1.html,转载请声明来源钻瓜专利网。