[发明专利]一种基于RBF神经网络的机械臂控制方法在审
申请号: | 201811338287.3 | 申请日: | 2018-11-12 |
公开(公告)号: | CN109227550A | 公开(公告)日: | 2019-01-18 |
发明(设计)人: | 曲兴田;田农;王鑫;杜雨欣;张昆;李金来;刘博文;王学旭 | 申请(专利权)人: | 吉林大学 |
主分类号: | B25J9/16 | 分类号: | B25J9/16 |
代理公司: | 长春市恒誉专利代理事务所(普通合伙) 22212 | 代理人: | 鞠传龙 |
地址: | 130012 吉*** | 国省代码: | 吉林;22 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 机械臂 机械臂控制 认知 混合学习算法 人工神经网络 基底神经节 仿真实验 机械领域 领域应用 强化学习 数学模型 学习能力 小脑 工作量 应用 验证 学习 | ||
1.一种基于RBF神经网络的机械臂控制方法,其特征在于:其方法如下所述:
步骤一、根据人脑认知系统各模块的工作原理和操作条件反射的机理,提供一种机械臂的认知学习模型机理;
步骤二、提出一种基于小脑-基底神经节的行为认知模型和混合学习算法;
步骤三、基于径向基函数网络的小脑-基底神经节操作条件学习算法设计,采用人工神经网络和强化学习方法建立一个能使机械臂自主学习的数学模型;
步骤四、采用基于径向基函数网络的小脑-基底神经节操作条件认知学习模型,控制机械臂,在Matlab中,建立机械臂仿真实验模型;
步骤五、在Matlab中,通过改变参数和变量进行可行性的测试,验证基于RBF神经网络的机械臂控制方法。
2.根据权利要求1所述的一种基于RBF神经网络的机械臂控制方法,其特征在于:所述的步骤二中混合学习算法的核心是:探索行为ae,监督行为as,两者进行加权求和得到复合行为af,即:
af←ωae+(1-ω)as (1)
1)、概率式行为选择使用行为策略πA(s),它是状态到行为的映射,用一个参数为θ的RBF网络进行逼近,类似热力学系统,智能体系统状态迁移的随机性表现出一定的统计规律,令它的探索行为选择服从概率分布,即Blotzmann-Gibbs分布:
其中,T为热力学温度,KB为玻尔兹曼常数,为玻尔兹曼因子,Z为分配函数;
将公式推演,探索行为ae替代状态s,ε(s)=ε(ae)=(ae-aA)2,T表示行为探索程度,即温度越高,探索程度越大,对于每一个确定的T,系统都有其对应的平衡点;
2)、用评价值函数V(s)评价行为的正负效果,用RBF网络进行逼近,函数为:
V(s)=E{rt+1+γV(st+1)} (3)
用奖惩信息rt+1和下一次迭代产生的评价值V(st+1)估计二次评价信号δ:
δ=rt+1+γV(st+1)-V(st) (4)
其中,0<γ<1为评价奖惩因子;
3)、模型中给监督器一个先验知识集,作为行为网络的期望映射,行为策略πA(s)中参数θ的更新由小脑模块和基底神经节模块共同实现,即:
θ←θ+ωΔθBG+(1-ω)ΔθCB (5)
用于权值调整的误差指标为:
采用梯度下降法,网络权值的学习算法为:
其中,η∈[0,1]为学习速率,δ为二次评价信号;
4)、协调因子ω表示小脑的监督学习在行为网络的认知过程中占的比重,在学习控制过程的初始阶段,概率行为误差较大,行为网络采集到的状态信息较少且不准确,监督器的监督学习占有较大比重,但随着迭代次数的增多,后阶段小脑和基底神经节在其中的起的作用发生了变化,小脑模块的监督器在学习过程中的作用不断减少,强化机制起了主导,将协调因子用指数增加形式表示:
3.根据权利要求1所述的一种基于RBF神经网络的机械臂控制方法,其特征在于:所述的步骤三中自主学习的数学模型利用RBF神经网络来实现,RBF神经网络具有三层结构:输入层、隐含层、输出层,具有相同的“感觉-联想-反应”的体系结构,输入层对应着感觉神经元的节点,隐含层对应着联想神经元的节点,输出层对应着反应神经元的节点,输入层只起到传递信号的作用,输入层将信号传递给隐含层后,用RBF作为隐单元的“基”构成隐含层对其进行处理转换,它们两层之间的连接权值为1,隐含层采用的是非线性优化策略,而输出层采用的是线性优化策略;
RBF神经网络学习算法需要求解3个参数:基函数的中心、方差以及隐含层到输出层的权值;
1)、径向基函数的学习中心ti(i=1,2,…,I)采用K-均值聚类算法,假设聚类中心有I个,I的值由先验知识决定,设ti(n)(i=1,2,…,I),是第n次迭代时基函数的中心,K-均值聚类算法的具体步骤如下:
第一步:对聚类中心执行初始化,即根据经验从训练样本中集中随机选取I个不同的样本作为初始中心ti(0)(i=1,2,…,I),设置迭代步数n=0;
第二步:随机输入训练样本Xk;
第三步:寻找训练样本Xk离哪个中心最近,即找到i(Xk)使其满足:
i(Xk)=argmin||Xk-ti(0)||,i=1,2,…,I(10)
第四步:更新调整聚类中心,Xk的加入使得第i类的聚类中心发生了改变,新的聚类中心等于:
ti(n+1)=ti(n)+η[Xk(n)-ti(n)],i=i(Xk)
ti(n+1)=ti(n),其他(11)
第五步:判断算法收敛与否,通常会给聚类中心值的变化设定一个阈值,计算聚类中心的变化,如果小于这个值,停止往下计算,如果聚类中心仍变化,那么算法没有收敛,跳回第二步继续迭代,最终的中心取ti(n);
2)、径向基函数的方差σi(i=1,2,…,I)
中心固定后,必须立即确定基函数的方差σ,基函数为高斯函数:
方差:dmax是中心间的最大间距,I是隐单元的个数;
3)、径向基函数的学习权值wij(i=1,2,...,I,j=1,2,...,J)
RBF网络输出层的神经元只是对隐含层神经元的输出加权求和,RBF网络的实际输出为:
Y(n)=G(n)W(n)(13)
输入层的每个神经元对应一个输入变量,令其神经元数为n,输入向量为x=(x1,x2,...,xn)T,隐含层的每一个节点对应一个高斯基函数,隐含层节点数为j,隐含层输出h=[hj]T,hj为隐含层第j个神经元的输出,其中c为隐含层第j个神经元高斯基函数中心点的坐标向量c=(c1,c2,...,cj)T,bj为隐含层第j个神经元高斯基函数的宽度,即:基宽向量b=(b1,b2,...,bj)T,在第三层即输出层中,神经网络权值w=[w1,w2,...,wm]T,网络输出为y(t)=wTh=w1h1+...+wmhm,为理想输出第l个输出的误差为el=yld-yl整个样本误差指标
对于此前的模型中提到的行为网络和评价网络,都采用相同的RBF网络结构,输入是初始状态s0,行为网络的权值用θ表示,评价网络的权值用w表示。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于吉林大学,未经吉林大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811338287.3/1.html,转载请声明来源钻瓜专利网。