[发明专利]一种基于模型不确定性估计的机械臂强化学习控制方法在审
申请号: | 202310654932.7 | 申请日: | 2023-06-05 |
公开(公告)号: | CN116587278A | 公开(公告)日: | 2023-08-15 |
发明(设计)人: | 王英龙;王翻;舒明雷;陈超;狄冲;刘照阳 | 申请(专利权)人: | 山东省人工智能研究院;齐鲁工业大学(山东省科学院) |
主分类号: | B25J9/16 | 分类号: | B25J9/16 |
代理公司: | 济南泉城专利商标事务所 37218 | 代理人: | 支文彬 |
地址: | 250013*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 模型 不确定性 估计 机械 强化 学习 控制 方法 | ||
1.一种基于模型不确定性估计的机械臂强化学习控制方法,其特征在于,包括:
a)建立不确定性估计的机械臂动力学模型其中为融合不确定性的机械臂的关节力矩,τ为机械臂的动力学模型的机械臂的关节力矩,δ为机械臂理论位置和实际位置的误差;
b)初始化得到机械臂状态模型P(s,a),其中s为不确定性估计的机械臂动力学模型中机械臂的当前位置状态,a为将融合不确定性的机械臂的关节力矩输入到机械臂的对应的关节的驱动器中,得到的机械臂要执行的动作;
c)通过奖励函数r初始化得到奖励函数模型R(s,a);
d)初始化机械臂的当前位置状态s采取机械臂要执行的动作a的价值函数Q(s,a);
e)根据机械臂当前位置状态s利用贪婪策略选择机械臂要执行的动作a;
f)将步骤e)中机械臂要执行的动作a输入到奖励函数模型R(s,a)中,得到奖励函数r,将步骤e)中机械臂要执行的动作a输入到机械臂状态模型P(s,a)中,得到机械臂下一个状态s′,根据动作a和机械臂下一个状态s′得到新的状态模型
g)根据步骤f)中的机械臂要执行的动作a、机械臂的当前位置状态s、奖励函数r、机械臂下一个状态s′计算得到更新的价值函数Q′(s,a);
h)根据步骤f)中的机械臂要执行的动作a、机械臂的当前位置状态s、奖励函数r计算得到新的奖励函数模型
i)随机选择一个机械臂的当前位置状态s,在该当前位置状态s出现过的动作中随机选取一个动作a,将该动作a输入到新的状态模型中,得到机械臂下一个状态s″,将该动作a输入到新的奖励函数模型中,得到奖励函数r;
j)利用步骤i)中的机械臂的当前位置状态s、根据动作a和机械臂下一个状态s″计算得到更新的价值函数Q″(s,a);
k)重复执行步骤i)至步骤j)N次,得到最后更新的价值函数Q″(s,a);
l)根据最后更新的价值函数Q″(s,a)计算得到当前状态下价值函数最大的动作a*;
m)将动作a*作为输入到机械臂的关节驱动器中,实现机械臂的控制。
2.根据权利要求1所述的基于模型不确定性估计的机械臂强化学习控制方法,其特征在于,步骤a)包括如下步骤:
a-1)机械臂动力学模型为其中q为机械臂的关节位置向量,为机械臂的角速度向量,为机械臂的角加速度向量,M(q)为质量惯性矩阵,为向心力与哥氏力矩阵,G(q)为重力矩阵;
a-2)通过公式计算得到机械臂理论位置和实际位置的误差δ,式中ΔM(q)为质量惯性矩阵参数的实际值与标称值之间的偏差,为向心力与哥氏力矩阵参数的实际值与标称值之间的偏差,ΔG(q)为重力矩阵参数的实际值与标称值之间的偏差,δ~CNP(mζ,kζ),δ服从于CNP,CNP为深度高斯过程学习系统建模,mζ为高斯函数的均值向量,kζ为高斯函数的协方差函数。
3.根据权利要求1所述的基于模型不确定性估计的机械臂强化学习控制方法,其特征在于:步骤b)中不确定性估计的机械臂动力学模型中机械臂的当前位置状态s包括机械臂的关节角度、机械臂的角速度、机械臂末端执行器的位置、机械臂末端执行器的速度、机械臂的力。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山东省人工智能研究院;齐鲁工业大学(山东省科学院),未经山东省人工智能研究院;齐鲁工业大学(山东省科学院)许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310654932.7/1.html,转载请声明来源钻瓜专利网。