[发明专利]一种基于模型不确定性估计的机械臂强化学习控制方法在审

申请号：	202310654932.7	申请日：	2023-06-05
公开（公告）号：	CN116587278A	公开（公告）日：	2023-08-15
发明（设计）人：	王英龙;王翻;舒明雷;陈超;狄冲;刘照阳	申请（专利权）人：	山东省人工智能研究院;齐鲁工业大学（山东省科学院）
主分类号：	B25J9/16	分类号：	B25J9/16
代理公司：	济南泉城专利商标事务所 37218	代理人：	支文彬
地址：	250013***	国省代码：	山东;37
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于模型不确定性估计机械强化学习控制方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于模型不确定性估计的机械臂强化学习控制方法，其特征在于，包括：

a)建立不确定性估计的机械臂动力学模型其中为融合不确定性的机械臂的关节力矩，τ为机械臂的动力学模型的机械臂的关节力矩，δ为机械臂理论位置和实际位置的误差；

b)初始化得到机械臂状态模型P(s,a)，其中s为不确定性估计的机械臂动力学模型中机械臂的当前位置状态，a为将融合不确定性的机械臂的关节力矩输入到机械臂的对应的关节的驱动器中，得到的机械臂要执行的动作；

c)通过奖励函数r初始化得到奖励函数模型R(s,a)；

d)初始化机械臂的当前位置状态s采取机械臂要执行的动作a的价值函数Q(s,a)；

e)根据机械臂当前位置状态s利用贪婪策略选择机械臂要执行的动作a；

f)将步骤e)中机械臂要执行的动作a输入到奖励函数模型R(s,a)中，得到奖励函数r，将步骤e)中机械臂要执行的动作a输入到机械臂状态模型P(s,a)中，得到机械臂下一个状态s′，根据动作a和机械臂下一个状态s′得到新的状态模型

g)根据步骤f)中的机械臂要执行的动作a、机械臂的当前位置状态s、奖励函数r、机械臂下一个状态s′计算得到更新的价值函数Q′(s,a)；

h)根据步骤f)中的机械臂要执行的动作a、机械臂的当前位置状态s、奖励函数r计算得到新的奖励函数模型

i)随机选择一个机械臂的当前位置状态s，在该当前位置状态s出现过的动作中随机选取一个动作a，将该动作a输入到新的状态模型中，得到机械臂下一个状态s″，将该动作a输入到新的奖励函数模型中，得到奖励函数r；

j)利用步骤i)中的机械臂的当前位置状态s、根据动作a和机械臂下一个状态s″计算得到更新的价值函数Q″(s,a)；

k)重复执行步骤i)至步骤j)N次，得到最后更新的价值函数Q″(s,a)；

l)根据最后更新的价值函数Q″(s,a)计算得到当前状态下价值函数最大的动作a^*；

m)将动作a^*作为输入到机械臂的关节驱动器中，实现机械臂的控制。

2.根据权利要求1所述的基于模型不确定性估计的机械臂强化学习控制方法，其特征在于，步骤a)包括如下步骤：

a-1)机械臂动力学模型为其中q为机械臂的关节位置向量，为机械臂的角速度向量，为机械臂的角加速度向量，M(q)为质量惯性矩阵，为向心力与哥氏力矩阵，G(q)为重力矩阵；

a-2)通过公式计算得到机械臂理论位置和实际位置的误差δ，式中ΔM(q)为质量惯性矩阵参数的实际值与标称值之间的偏差，为向心力与哥氏力矩阵参数的实际值与标称值之间的偏差，ΔG(q)为重力矩阵参数的实际值与标称值之间的偏差，δ～CNP(m_ζ,k_ζ)，δ服从于CNP，CNP为深度高斯过程学习系统建模，m_ζ为高斯函数的均值向量，k_ζ为高斯函数的协方差函数。

3.根据权利要求1所述的基于模型不确定性估计的机械臂强化学习控制方法，其特征在于：步骤b)中不确定性估计的机械臂动力学模型中机械臂的当前位置状态s包括机械臂的关节角度、机械臂的角速度、机械臂末端执行器的位置、机械臂末端执行器的速度、机械臂的力。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于山东省人工智能研究院;齐鲁工业大学（山东省科学院），未经山东省人工智能研究院;齐鲁工业大学（山东省科学院）许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202310654932.7/1.html，转载请声明来源钻瓜专利网。

上一篇：一种可承受350kJcm大热输入焊接的屈服强度不小于370MPa的E级钢板
下一篇：一种支持自动取盖的机构及其系统控制方法

同类专利

专利分类

B 作业；运输

B25 手动工具；轻便机动工具；手动器械的手柄；车间设备；机械手
B25J 机械手；装有操纵装置的容器
B25J9-00 程序控制机械手
B25J9-02 .以臂的运动为特征的，例如直角坐标型的
B25J9-06 .以多铰接爪臂为特征的
B25J9-08 .以部件结构为特征的
B25J9-10 .以机械手元件定位装置为特征的
B25J9-16 .程序控制

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于模型不确定性估计的机械臂强化学习控制方法在审

专利文献下载